微软研究院推出通用多模式基础模型“BEIT-3”可在视觉和视觉语言任务上实现最先进的迁移性能

小安 • 来源：相约机器人 • 2024年2月15日下午9:18 • 资讯 • 阅读 91

【安防在线 www.anfang.cn】机器学习社区最近将注意力转移到语言、视觉和多模式预训练的融合上。这背后的主要目的是创建通用基础模型，可以处理多种模式并轻松定制各种下游任务。微软研究团队最近在论文 Image as a Foreign Language: BEiT 中介绍了 BEiT-3（BERT Pretraining of Image Transformers），这是一种用于视觉和视觉语言任务的通用最先进的多模态基础模型所有视觉和视觉语言任务的预训练。该模型从三个方面改进了收敛技术：主干设计、预训练工作和模型扩展，使其能够实现最先进的性能。

该团队提出了一个尖端的共享 Multiway Transformers 网络作为其架构的主干。该网络已经对大量的单模态和多模态数据进行了预训练，使其能够对各种模态进行编码。Multiway Transformer 块使用一个前馈网络池来表示各种模态和一个共享的自我注意模块，该模块学习对齐各种模态并为多模态活动提供深度融合。在这个通用框架下，BEiT-3 统一了图像、文本和图像-文本对（也称为“平行句子”）的蒙面“语言”建模。该团队在 BEiT-3 预训练过程中对单模态和多模态数据使用单一掩码数据建模。隐藏文本或图像补丁以训练模型预测隐藏的标记。他们使用 2100 万个图像-文本对和 1500 万张照片作为多模式数据，这些数据是从几个开放数据库中获取的。单模态数据由一个 160GB 的文本语料库和来自 ImageNet-21K 的 1400 万张图片组成。

研究人员在视觉问答 (VQA)、视觉推理、图像字幕和语义分割等知名公共基准测试中使用了 BEiT-3，作为他们实证研究的一部分。根据这些实验评估，BEiT-3 在目标检测、语义分割、图片分类、视觉推理、视觉问答、图像字幕和跨模态等语言模型相关任务上取得了最先进的性能恢复。BEIT-3 的核心概念是图像可以被视为外语，允许研究人员快速统一地对图像、文本和图像-文本对进行蒙版“语言”建模。该团队还通过展示 Multiway Transformers 代表各种视觉和视觉语言任务的能力，将 Multiway Transformers 置于新的视野中，使它们成为通用建模的有吸引力的选择。该团队认为 BEIT-3 是扩展多模式基础模型的良好途径，因为它简单高效。为了促进跨语言和跨模式迁移，研究人员正在努力预训练多语言 BEIT-3 并添加其他模式如音频。微软研究人员提出的 BEiT-3 提案为有效扩展多模式基础模型同时推进此类模型的开发提供了一条新的、有希望的途径。