OpenMMLab 社区开放麦特别企划——学术月直播分享活动,正在火热进行中。活动由 OpenMMLab 联合将门创投、Readpaper、白玉兰开源、示说网共同推出,围绕前沿的研究进展、学术热点,邀请顶会作者、一线的教授亲临分享,选取最受关注、最有看点的研究主题,为大家带来最干货的 AI 领域前沿分享。
本次分享的论文为 Reversible Column Networks(ICLR 2023),本论文试图解决如何设计视觉大模型的问题。 我们将解耦学习(disentangled feature learning)的思想引入模型设计中,提出以 reversible column 为单元来传递信息,既能保证特征解耦,同时又能保证信息在网络中的传递不受到损失。 整个网络结构包括了多个子网络(我们称为 column),column 间加入可逆的连接,通过将输入反复接入 column,逐渐分离 low-level 的纹理细节和 semantic 语义信息。这样做的好处在于,既能够保证在预训练中保持高精度,又保证了 low-level 的信息不丢失,以在下游任务(detection,segmentation)中能够达到更好效果。 为了验证这套设计模式在大模型大数据下的表现,我们在 RevCol 上做了一个 2B 参数的纯 CNN 超大模型,且只使用了 3x3 的卷积核。在 ImageNet-1K 上达到了 90% 的 Top-1 Accuracy,在下游的检测和分割任务上双双达到 60+ 的水平,COCO AP box 63.8%,ADE 20k mIoU 61.0%。 此外,RevCol 架构依然遵循了可逆神经网络的设计范式,也就继承了可逆网络天然的节省显存的优势,文中的大部分实验均可在 2080ti 上完成。而节省显存这件事,对于大模型训练无疑是重要的。