“紫东太初”首次实现“以图生音”和“以音生图”

“紫东太初”是全球首个图、文、音三模态大模型,开创性地实现了图像、文本、语音三模态数据间的“统一表示”与“相互生成”,实现了“以图生音”和“以音生图”,理解和生成能力更接近人类,为打造多模态人工智能行业应用提供创新基础,向通用人工智能迈出了重要一步。

“紫东太初”首次实现“以图生音”和“以音生图”
  “紫东太初”是全球首个图、文、音三模态大模型,开创性地实现了图像、文本、语音三模态数据间的“统一表示”与“相互生成”,实现了“以图生音”和“以音生图”,理解和生成能力更接近人类,为打造多模态人工智能行业应用提供创新基础,向通用人工智能迈出了重要一步。
  近日,2022世界人工智能大会在上海举行,由武**工智能研究院、中国科学院自动化研究所和华为技术有限公司联合研发的“紫东太初”多模态大模型项目获得了此次大会的最高奖项。“此次大会的‘智联世界,元生**’主题,恰好揭示了人类智能未来发展的两大方向,智联世界代表弱人工智能对物理世界的作用及改造,而元生**则代表着利用人工智能技术构建元宇宙,实现虚实融合的新型世界。”中国计算机行业协会数据安全专业委员会委员、北京理工大学网络与安全研究所所长闫怀志说。
  中国科学院自动化研究所研究员、武**工智能研究院院长王金桥表示,“紫东太初”是全球首个图、文、音三模态大模型,开创性地实现了图像、文本、语音三模态数据间的“统一表示”与“相互生成”,实现了“以图生音”和“以音生图”,理解和生成能力更接近人类,为打造多模态人工智能行业应用提供创新基础,向通用人工智能迈出了重要一步。
  “紫东太初”具备部分类脑特性
  在闫怀志看来,通用人工智能旨在制造出像人类一样思考、像人类一样拥有全面智能、能够从事多类型工作的机器,因此又被称为强人工智能。目前的人工智能充其量只是承袭了人类的认知结果,远未形成不同感官之间的、相互确定的认知能力。
  传统的人工智能,比如大名鼎鼎的阿尔法围棋(AlphaGo),在一些领域内已经“孤独求败”。不过,北京德火科技有限责任公司技术总监李岩表示,现阶段许多行业内应用的人工智能技术仍处于比较初级的阶段,与科幻电影中设想的各类人工智能应用还相去甚远。
  在王金桥看来,人工智能一路发展至今,虽然取得了许多突破与进步,但仍存在三大主要局限:首先,人工智能模型的功能单一,一个模型只能解决一个任务;其次,人工智能模型的训练依赖于大量的样本,如果缺乏足够的样本支撑,训练也就无从谈起。以训练人脸识别数据库Webface为例,需要2.6亿张图片才能训练出一个可用的模型;最后,人工智能模型的泛化能力差,不能应用于广泛的应用场景。
  “我们一直以来都在追求如何解决当前人工智能‘一专一用’的问题,基于自监督学习的多模态预训练模型是当前的一个重要发展路径。”王金桥说。
  自监督学习指的是从大规模的无监督数据中挖掘隐含的监督信息进行训练,从而得到对下游任务有价值的表征,相比于传统的深度学习,是更接近人类的学习方式。
  “能否在同一个维度、同一个空间,面对不同的场景提供同一个多模态大模型,摆脱‘一专一能’,是实现人工智能通用化的基础。”王金桥说。“紫东太初”可以将图像、文本、语音等不同模态数据实现跨模态的统一表征和学习,突破了当前AI技术局限,具备部分类脑特性,从“一专一能”迈向“多专多能”。
  闫怀志指出:“本质上,‘以图生音’和‘以音生图’仍然是一种基于数据的人工智能,但它更接近于人类的理解和思考方式,因此可以被视为从弱人工智能向通用人工智能迈进的重要基础性工作。”
  实现三模态内容的统一与重现
  曾经,“以图生音”和“以音生图”只是幻想,而如今的“紫东太初”却让这两者成为了现实。“以图生音”和“以音生图”究竟是如何实现的?实现图、文、音三模态转化的真正关键以及底层逻辑是什么?
  据悉,“紫东太初”三模态间的相互转换和生成,其核心原理是视觉、文本、语音不同模态通过各自编码器映射到统一语义空间,然后通过多头自注意力机制学习模态之间的语义关联以及特征对齐,形成多模态统一知识表示;之后,再利用编码后的多模态特征,通过解码器分别生成文本、图像和语音。
  王金桥表示:“通俗地说,‘紫东太初’就是将形式各不相同的三模态内容转化为一个统一的多模态知识表示,之后再次利用这种知识表示重新生成三模态内容,以此实现‘以图生音’和‘以音生图’。”
  同时,王金桥还表示,“紫东太初”凭借四大突破,有效助力以多模态认知为核心的通用人工智能发展。
  具体来说,一是首次提出多层次、多任务跨模态自监督学习框架,支持从词条级走向模态级、样本级的三级预训练自监督学习方式;二是首次完成弱关联多模态数据语义统一表示,减少数据收集与清洗代价;三是首次实现多模态理解与生成任务的统一建模,支持跨模态检索、多模态分类、语音识别、图像生成等理解与生成任务;四是首次实现无监督超越有监督方法,基于5%―10%的数据标注,实现100%的有监督学习效果。
  打造典型人工智能行业应用
  “与单模态和图文两模态相比,‘紫东太初’采用图、文、音三模态大模型,可以灵活支撑全场景的人工智能应用。”王金桥说,“‘紫东太初’还具有在无监督情况下多任务联合学习以及不同领域数据快速迁移的强大能力。引入语音模态后的多模态预训练模型,可实现共性图文音语义空间表征和利用,并突破性地直接实现三模态的统一表示,对更广泛、更多样的下游任务提供模型基础支撑。”
  “目前,我们已经整合了产学研用各方面的资源,打造了一系列典型的人工智能行业应用。”王金桥说。在智能制造领域,“紫东太初”可以有效降低模型训练对于样本数量的依赖,同时提升算法性能。
  “紫东太初”还与杭州移动共同打造了为杭州文旅代言的智能文旅虚拟人“杭小忆”。“紫东太初”的多模态对话支持南宋御街场景陶瓷、丝绸、活字印刷、特色小吃等场景化数据的增量训练,助力南宋御街的导游、导购人工智能数字人实现语音识别、中文对话、语音交互、以音生图等功能。

该文观点仅代表作者,本站仅提供信息存储空间服务,转载请注明出处。若需了解详细的安防行业方案,或有其它建议反馈,欢迎联系我们

(0)
小安小安

相关推荐

  • 深圳发布智能装备产业发展规划政策

    深圳将在机器人、可穿戴设备和智能装备等领域大展拳脚,未来7年每年将投5亿元专项资金扶持产业发展,至2020年,初步形成创新活跃、配套完善、服务发达的产业体系,培育一批技术引领型国际知名企业和研究机构,培育若干具有国际竞争力的大型企业集团,力争产业增加值超过2000亿元。

    2024年2月1日
  • 数字经济的智能发展特征

    智能发展代表着智能生产力的方向,将数据密集和技术密集作为发展的主要源头和驱动,呈现出数字化、智能化、网络化的方式,创造出优质、巨量、价廉的产品和服务,有利于做大做好蛋糕,有利于共享发展趋势,有利于劳动者的解放和人的全面发展。

    2024年3月4日
  • 2015“SSC最受外商关注企业”评选活动火热进行中

    应历届SSC中外安防产品洽谈会(以下简称“会议”)国外买家的一致要求,同时为协助参会国内企业快速拓展海外市场和提高品牌国际知名度,本届会议将首次开展“SSC最受外商关注企业”评选及授牌活动。

    2024年2月7日
  • 辽宁省农村寄递物流综合服务站建设工作实施方案印发

    为贯彻落实辽宁省推动经济稳中求进若干政策举措,办好2024年全省民生实事,近日,辽宁省邮政管理局印发了《辽宁省农村寄递物流综合服务站建设工作实施方案》(以下简称《方案》),明确到2…

    2024年6月26日
  • 视频与人工智能结合的六大趋势

    视频成像技术与人工智能相结合,提供了丰富的新数据,不仅适用于传统的物理安全应用,还适用于对整个企业的过去、现在甚至未来事件进行更深入的分析。

    2024年2月22日
  • 2015年度上海市技防专家大会在沪召开

    专家委员会主任孙国强做了年度工作报告,总结了技防专家2014年度各项工作,提出了存在的问题,并结合这些问题就2015年的专家工作提了一些工作思路。

    2024年2月1日