“紫东太初”首次实现“以图生音”和“以音生图”

“紫东太初”是全球首个图、文、音三模态大模型,开创性地实现了图像、文本、语音三模态数据间的“统一表示”与“相互生成”,实现了“以图生音”和“以音生图”,理解和生成能力更接近人类,为打造多模态人工智能行业应用提供创新基础,向通用人工智能迈出了重要一步。

  “紫东太初”是全球首个图、文、音三模态大模型,开创性地实现了图像、文本、语音三模态数据间的“统一表示”与“相互生成”,实现了“以图生音”和“以音生图”,理解和生成能力更接近人类,为打造多模态人工智能行业应用提供创新基础,向通用人工智能迈出了重要一步。
  近日,2022世界人工智能大会在上海举行,由武汉人工智能研究院、中国科学院自动化研究所和华为技术有限公司联合研发的“紫东太初”多模态大模型项目获得了此次大会的最高奖项。“此次大会的‘智联世界,元生无界’主题,恰好揭示了人类智能未来发展的两大方向,智联世界代表弱人工智能对物理世界的作用及改造,而元生无界则代表着利用人工智能技术构建元宇宙,实现虚实融合的新型世界。”中国计算机行业协会数据安全专业委员会委员、北京理工大学网络与安全研究所所长闫怀志说。
  中国科学院自动化研究所研究员、武汉人工智能研究院院长王金桥表示,“紫东太初”是全球首个图、文、音三模态大模型,开创性地实现了图像、文本、语音三模态数据间的“统一表示”与“相互生成”,实现了“以图生音”和“以音生图”,理解和生成能力更接近人类,为打造多模态人工智能行业应用提供创新基础,向通用人工智能迈出了重要一步。

“紫东太初”首次实现“以图生音”和“以音生图”
  “紫东太初”具备部分类脑特性
  在闫怀志看来,通用人工智能旨在制造出像人类一样思考、像人类一样拥有全面智能、能够从事多类型工作的机器,因此又被称为强人工智能。目前的人工智能充其量只是承袭了人类的认知结果,远未形成不同感官之间的、相互确定的认知能力。
  传统的人工智能,比如大名鼎鼎的阿尔法围棋(AlphaGo),在一些领域内已经“孤独求败”。不过,北京德火科技有限责任公司技术总监李岩表示,现阶段许多行业内应用的人工智能技术仍处于比较初级的阶段,与科幻电影中设想的各类人工智能应用还相去甚远。
  在王金桥看来,人工智能一路发展至今,虽然取得了许多突破与进步,但仍存在三大主要局限:首先,人工智能模型的功能单一,一个模型只能解决一个任务;其次,人工智能模型的训练依赖于大量的样本,如果缺乏足够的样本支撑,训练也就无从谈起。以训练人脸识别数据库Webface为例,需要2.6亿张图片才能训练出一个可用的模型;最后,人工智能模型的泛化能力差,不能应用于广泛的应用场景。
  “我们一直以来都在追求如何解决当前人工智能‘一专一用’的问题,基于自监督学习的多模态预训练模型是当前的一个重要发展路径。”王金桥说。
  自监督学习指的是从大规模的无监督数据中挖掘隐含的监督信息进行训练,从而得到对下游任务有价值的表征,相比于传统的深度学习,是更接近人类的学习方式。
  “能否在同一个维度、同一个空间,面对不同的场景提供同一个多模态大模型,摆脱‘一专一能’,是实现人工智能通用化的基础。”王金桥说。“紫东太初”可以将图像、文本、语音等不同模态数据实现跨模态的统一表征和学习,突破了当前AI技术局限,具备部分类脑特性,从“一专一能”迈向“多专多能”。
  闫怀志指出:“本质上,‘以图生音’和‘以音生图’仍然是一种基于数据的人工智能,但它更接近于人类的理解和思考方式,因此可以被视为从弱人工智能向通用人工智能迈进的重要基础性工作。”
  实现三模态内容的统一与重现
  曾经,“以图生音”和“以音生图”只是幻想,而如今的“紫东太初”却让这两者成为了现实。“以图生音”和“以音生图”究竟是如何实现的?实现图、文、音三模态转化的真正关键以及底层逻辑是什么?
  据悉,“紫东太初”三模态间的相互转换和生成,其核心原理是视觉、文本、语音不同模态通过各自编码器映射到统一语义空间,然后通过多头自注意力机制学习模态之间的语义关联以及特征对齐,形成多模态统一知识表示;之后,再利用编码后的多模态特征,通过解码器分别生成文本、图像和语音。
  王金桥表示:“通俗地说,‘紫东太初’就是将形式各不相同的三模态内容转化为一个统一的多模态知识表示,之后再次利用这种知识表示重新生成三模态内容,以此实现‘以图生音’和‘以音生图’。”
  同时,王金桥还表示,“紫东太初”凭借四大突破,有效助力以多模态认知为核心的通用人工智能发展。
  具体来说,一是首次提出多层次、多任务跨模态自监督学习框架,支持从词条级走向模态级、样本级的三级预训练自监督学习方式;二是首次完成弱关联多模态数据语义统一表示,减少数据收集与清洗代价;三是首次实现多模态理解与生成任务的统一建模,支持跨模态检索、多模态分类、语音识别、图像生成等理解与生成任务;四是首次实现无监督超越有监督方法,基于5%―10%的数据标注,实现100%的有监督学习效果。
  打造典型人工智能行业应用
  “与单模态和图文两模态相比,‘紫东太初’采用图、文、音三模态大模型,可以灵活支撑全场景的人工智能应用。”王金桥说,“‘紫东太初’还具有在无监督情况下多任务联合学习以及不同领域数据快速迁移的强大能力。引入语音模态后的多模态预训练模型,可实现共性图文音语义空间表征和利用,并突破性地直接实现三模态的统一表示,对更广泛、更多样的下游任务提供模型基础支撑。”
  “目前,我们已经整合了产学研用各方面的资源,打造了一系列典型的人工智能行业应用。”王金桥说。在智能制造领域,“紫东太初”可以有效降低模型训练对于样本数量的依赖,同时提升算法性能。
  “紫东太初”还与杭州移动共同打造了为杭州文旅代言的智能文旅虚拟人“杭小忆”。“紫东太初”的多模态对话支持南宋御街场景陶瓷、丝绸、活字印刷、特色小吃等场景化数据的增量训练,助力南宋御街的导游、导购人工智能数字人实现语音识别、中文对话、语音交互、以音生图等功能。

该文观点仅代表作者,本站仅提供信息存储空间服务,转载请注明出处。若需了解详细的安防行业方案,或有其它建议反馈,欢迎联系我们

(0)
小安小安

相关推荐

  • 目前的人工智能属于什么领域

    人工智能的发展与应用 人工智能的定义与发展 人工智能(Artificial Intelligence,简称AI)是指通过模拟人类智能的方式,使机器能够像人一样思考、学习和解决问题的…

    2023年9月22日
  • 全球人工智能产业进入高速发展阶段

    各国将人工智能上升至国家战略层面,加强人工智能顶层设计和统筹规划。产业界不断探索人工智能在多领域的应用落地,挖掘人工智能技术潜力。在政策和市场的双重驱动下,人工智能产业进入高速发展阶段,技术红利快速释放,研发成果不断涌现,应用场景持续拓展。

    2024年2月15日
  • 人工智能:发展和治理“两手抓”

    人工智能无疑是2023年最热门的数字科技关键词。一方面,各国纷纷加速布局人工智能产业。

    2024年3月9日
  • 人工智能的现状与未来

    人工智能的现状 人工智能(Artificial Intelligence,简称AI)是一门研究如何使计算机能够像人一样思考和行动的科学。近年来,随着计算能力的提升和大数据的普及,人…

    2023年9月23日
  • 到2024年,人工智能市场将达到至5543亿美元

    预测显示,到2024年,人工智能市场将飙升至惊人的5543亿美元。这种显著的增长是由一系列因素共同推动的,从人工智能的采用增加到该领域的持续创新。

    2023年11月20日
  • 一文读懂2024政府工作报告中“人工智能+”

    从去年的AI语言模型ChatGPT到今年的视频生成模型Sora,一系列AIGC利用人工智能技术生成内容相继问世、更新迭代,人工智能的影响面越来越广,让所有人直观地感受到未来已来。为了抓紧这把打开未来之门的钥匙,我国也在加紧布局。今年全国两会政府工作报告中一个新关键词引发热议――“人工智能+”行动。值得注意的是,这是“人工智能+”首次被写入政府工作报告。

    2024年3月14日