点击进入回放

ICLR 2023 | 视觉大模型设计新范式

示说网官方

时间

2023/03/09 20:00 - 20:00

人数

100

地点

研讨会直播

742人浏览

会议详情

OpenMMLab 社区开放麦特别企划——学术月直播分享活动，正在火热进行中。活动由 OpenMMLab 联合将门创投、Readpaper、白玉兰开源、示说网共同推出，围绕前沿的研究进展、学术热点，邀请顶会作者、一线的教授亲临分享，选取最受关注、最有看点的研究主题，为大家带来最干货的 AI 领域前沿分享。

本次分享的论文为 Reversible Column Networks（ICLR 2023），本论文试图解决如何设计视觉大模型的问题。我们将解耦学习（disentangled feature learning）的思想引入模型设计中，提出以 reversible column 为单元来传递信息，既能保证特征解耦，同时又能保证信息在网络中的传递不受到损失。整个网络结构包括了多个子网络（我们称为 column），column 间加入可逆的连接，通过将输入反复接入 column，逐渐分离 low-level 的纹理细节和 semantic 语义信息。这样做的好处在于，既能够保证在预训练中保持高精度，又保证了 low-level 的信息不丢失，以在下游任务（detection，segmentation）中能够达到更好效果。为了验证这套设计模式在大模型大数据下的表现，我们在 RevCol 上做了一个 2B 参数的纯 CNN 超大模型，且只使用了 3x3 的卷积核。在 ImageNet-1K 上达到了 90% 的 Top-1 Accuracy，在下游的检测和分割任务上双双达到 60+ 的水平，COCO AP box 63.8%，ADE 20k mIoU 61.0%。此外，RevCol 架构依然遵循了可逆神经网络的设计范式，也就继承了可逆网络天然的节省显存的优势，文中的大部分实验均可在 2080ti 上完成。而节省显存这件事，对于大模型训练无疑是重要的。

示说网官方

77 活动

115 文档

2 专题

2 博客