面向认知的超大规模新型预训练模型“文汇”发布

小安 • 来源：智源社区 • 2024年1月28日下午6:17 • 资讯 • 阅读 83

【安防在线 www.anfang.cn】2021年1月11日，由北京智源人工智能研究院（以下简称“智源研究院”）、阿里巴巴、清华大学、中国人民大学、中国科学院、搜狗、智谱.AI、循环智能等单位的科研骨干成立“悟道”联合攻关团队，发布了面向认知的超大规模新型预训练模型“文汇”，旨在探索解决当前大规模自监督预训练模型不具有认知能力的问题。

“文汇”模型不仅使用数据驱动的方法来建构预训练模型，还将用户行为、常识知识以及认知联系起来，主动“学习”与创造。本次发布的“文汇”模型与1月初OpenAI刚刚发布的DALL・E和CLIP这两个连接文本与图像的大规模预训练模型类似，“文汇”模型能够学习不同模态（文本和视觉领域为主）之间的概念，可以实现“用图生文”等任务，具有一定的认知能力。“文汇”模型参数规模达113亿，仅次于DALL・E模型的120亿参数量，是目前我国规模最大的预训练模型，并已实现与国际领先预训练技术的并跑。

自从2020年5月，OpenAI发布迄今为止全球规模最大的预训练模型GPT-3以来，超大规模预训练模型就成为人工智能领域研究的热点。OpenAI、谷歌、Facebook等国际IT公司都在持续推动大规模预训练模型的进一步发展。可以预测到的是，未来的GPT-4参数又会增大至少10倍，而且处理的数据将会更加多模态（文字、图像、视觉、声音）。

虽然GPT-3在多项任务中表现出色，但它最大的问题是没有常识，不具有认知能力。例如，向GPT-3提问第一个问题“长颈鹿有几个眼睛？”GPT-3回答是两个眼睛，再提问第二个问题“我的脚有几个眼睛？”GPT-3回答的结果也是两个眼睛，这就不符合人类常识。智源研究院学术副院长、清华大学计算机系唐杰教授认为，GPT-3等超大型预训练模型在处理复杂的认知推理任务上，例如开放对话、基于知识的问答、可控文本生成等，结果仍然与人类智能有较大差距。

为推动研发我国自主的大规模预训练模型，解决目前国际主流模型存在的问题，2020年10月，智源研究院启动了新型超大规模预训练模型研发项目“悟道”。此次发布的是“文汇”（面向认知的超大规模新型预训练模型）的一期研发成果，用于自动生成图片、文字以及视频，可具有初级认知能力。智源研究院院长、北京大学信息技术学院黄铁军教授指出，“文汇”模型针对性地设计了多任务预训练的方法，可以同时学习文→文、图→文以及图文→文等多项任务，实现对多个不同模态的概念理解。经过预训练的“文汇”模型不需要进行微调就可以完成“用图生文”等任务，对模型进行微调则可以灵活地接入如视觉问答、视觉推理等任务。

该文观点仅代表作者，本站仅提供信息存储空间服务，转载请注明出处。若需了解详细的安防行业方案，或有其它建议反馈，欢迎联系我们。