微软研究院推出通用多模式基础模型“BEIT-3”可在视觉和视觉语言任务上实现最先进的迁移性能

该团队提出了一个尖端的共享 Multiway Transformers 网络作为其架构的主干。该网络已经对大量的单模态和多模态数据进行了预训练,使其能够对各种模态进行编码。Multiway Transformer 块使用一个前馈网络池来表示各种模态和一个共享的自我注意模块,该模块学习对齐各种模态并为多模态活动提供深度融合。

【安防在线 www.anfang.cn】机器学习社区最近将注意力转移到语言、视觉和多模式预训练的融合上。这背后的主要目的是创建通用基础模型,可以处理多种模式并轻松定制各种下游任务。微软研究团队最近在论文 Image as a Foreign Language: BEiT 中介绍了 BEiT-3(BERT Pretraining of Image Transformers),这是一种用于视觉和视觉语言任务的通用最先进的多模态基础模型所有视觉和视觉语言任务的预训练。该模型从三个方面改进了收敛技术:主干设计、预训练工作和模型扩展,使其能够实现最先进的性能。

该团队提出了一个尖端的共享 Multiway Transformers 网络作为其架构的主干。该网络已经对大量的单模态和多模态数据进行了预训练,使其能够对各种模态进行编码。Multiway Transformer 块使用一个前馈网络池来表示各种模态和一个共享的自我注意模块,该模块学习对齐各种模态并为多模态活动提供深度融合。在这个通用框架下,BEiT-3 统一了图像、文本和图像-文本对(也称为“平行句子”)的蒙面“语言”建模。该团队在 BEiT-3 预训练过程中对单模态和多模态数据使用单一掩码数据建模。隐藏文本或图像补丁以训练模型预测隐藏的标记。他们使用 2100 万个图像-文本对和 1500 万张照片作为多模式数据,这些数据是从几个开放数据库中获取的。单模态数据由一个 160GB 的文本语料库和来自 ImageNet-21K 的 1400 万张图片组成。

研究人员在视觉问答 (VQA)、视觉推理、图像字幕和语义分割等知名公共基准测试中使用了 BEiT-3,作为他们实证研究的一部分。根据这些实验评估,BEiT-3 在目标检测、语义分割、图片分类、视觉推理、视觉问答、图像字幕和跨模态等语言模型相关任务上取得了最先进的性能恢复。BEIT-3 的核心概念是图像可以被视为外语,允许研究人员快速统一地对图像、文本和图像-文本对进行蒙版“语言”建模。该团队还通过展示 Multiway Transformers 代表各种视觉和视觉语言任务的能力,将 Multiway Transformers 置于新的视野中,使它们成为通用建模的有吸引力的选择。该团队认为 BEIT-3 是扩展多模式基础模型的良好途径,因为它简单高效。为了促进跨语言和跨模式迁移,研究人员正在努力预训练多语言 BEIT-3 并添加其他模式如音频。微软研究人员提出的 BEiT-3 提案为有效扩展多模式基础模型同时推进此类模型的开发提供了一条新的、有希望的途径。

微软研究院推出通用多模式基础模型“BEIT-3”可在视觉和视觉语言任务上实现最先进的迁移性能

该文观点仅代表作者,本站仅提供信息存储空间服务,转载请注明出处。若需了解详细的安防行业方案,或有其它建议反馈,欢迎联系我们

(0)
小安小安

相关推荐

  • 大华发布HDCVI技术 定义高清监控新标准

    HDCVI技术是大华贴合安防视频监控应用需求,自主创新研发的模拟视频同轴电缆传输技术,其超越高清视频传输距离的极限,实现百万像素级视频500米以上传输,突破传统模拟技术分辨率的瓶颈。

    2024年1月30日
  • 吉林长春:筑牢织密城市“平安网”

    25日,吉林长春市召开视频监控系统建设工作现场会,总结全市视频监控系统建设成果,部署明年工作任务。市长姜治莹指出,强化视频监控系统建设,是深化平安建设、加强社会治理、推进依法治市的基础性工程,是建设幸福长春、提升群众安全感的重要保障。

    2024年2月1日
  • 乐山公布全市“电子眼”位置

    为确保乐山市道路交通安全、和谐、有序、畅通,进一步利用科学手段和技术设备提升道路交通管理水平,依据《中华人民共和国道路交通安全法》和《道路交通安全违法行为处理程序规定》等相关规定。

    2024年9月15日
  • 苏州市安防协会召开二届十五次常务理事会

    苏州市安防协会秘书长王坤泉主持会议。本次常务理事会主要议程有:星级诚信企业的申报,安防专家的考试,优秀编辑文章的评选,协会章程的修改和监事会人选的考虑,江苏优秀安防企业的推荐,安防工程技术人员的培训,申请入会的审核,深圳安博会的组团观展,法制培训会、创新工作会和团标工作会等三个会议的准备,江苏省安防联盟会议精神的汇报。

    2024年4月16日
  • 专家观点:主流安防市场未来三年将重新洗牌

    近年来,中国安防产业迅猛扩张,已快速崛起为世界安防产业中的一支重要力量。根据《2014-2018年中国安防行业市场前瞻及投资战略规划分析报告》数据分析,从2006年到2011年,安防行业市场规模从1200亿元增加到2696亿元,复合增长率达到了17.61%。而未来五年保守估计最低复合增长率也将达到15%。慧聪安防网研究部门出具的报道也显示,到2015年,中国安防市场规模最低为4715亿元,最高将达到5590亿元。

    2024年6月16日
  • 两会聚焦安防新动态,行业迎来发展新机遇

    ​随着一年一度的全国两会如火如荼地进行,各行各业都翘首以待政策春风的吹拂。安防行业作为维护社会稳定和人民安全的重要力量,自然也不例外。今年的两会,有哪些亮点将助推安防行业的蓬勃发展…

    2024年3月13日