新一代通用视觉技术体系“书生”(INTERN)发布

“当前发展通用视觉的核心,是提升模型的通用泛化能力和学习过程中的数据效率。面向未来,‘书生’通用视觉技术将实现以一个模型完成成百上千种任务,体系化解决人工智能发展中数据、泛化、认知和安全等诸多瓶颈问题。”上海人工智能实验室主任助理乔宇表示。

【安防在线 www.anfang.cn】11月17日,上海人工智能实验室联合商汤科技、香港中文大学、上海交通大学,共同发布新一代通用视觉技术体系“书生”(INTERN),该体系旨在系统化解决当下人工智能视觉领域中存在的任务通用、场景泛化和数据效率等一系列瓶颈问题。

书生作为中国古代读书人的经典形象,代表着一个通过不断学习、不断成长进而拥有各方面才能的人格化角色:从基础的知识技能学习开始,到对多种专业知识触类旁通,进而成长为拥有通用知识的通才。将全新的通用视觉技术体系命名为“书生”,意在体现其如同书生一般的特质,可通过持续学习,举一反三,逐步实现通用视觉领域的融会贯通,最终实现灵活高效的模型部署。

新一代通用视觉技术体系“书生”(INTERN)发布

  书生(INTERN)技术体系可以让AI模型处理多样化的视觉任务

“当前发展通用视觉的核心,是提升模型的通用泛化能力和学习过程中的数据效率。面向未来,‘书生’通用视觉技术将实现以一个模型完成成百上千种任务,体系化解决人工智能发展中数据、泛化、认知和安全等诸多瓶颈问题。”上海人工智能实验室主任助理乔宇表示。

商汤科技研究院院长王晓刚表示,“‘书生’通用视觉技术体系是商汤在通用智能技术发展趋势下前瞻性布局的一次尝试,也是SenseCore商汤AI大装置背景下的一次新技术路径探索。‘书生’承载了让人工智能参与处理多种复杂任务、适用多种场景和模态、有效进行小数据和非监督学习并最终具备接近人的通用视觉智能的期盼。希望这套技术体系能够帮助业界更好地探索和应用通用视觉AI技术,促进AI规模化落地。”

目前,技术报告已在arXiv平台发布[1],基于“书生”的通用视觉开源平台OpenGVLab也将在明年年初正式开源,向学术界和产业界公开预训练模型及其使用范式、数据库和评测基准等。

OpenGVLab将与上海人工智能实验室此前发布的OpenMMLab[2]、OpenDILab[3]一道,共同构筑开源体系OpenXLab,助力通用人工智能的基础研究和生态构建。

一个基模型覆盖4大视觉任务,26个场景

随着人工智能赋能产业的不断深入,人工智能系统正在从完成单一任务向复杂的多任务协同演进,其覆盖的场景也越来越多样化。借助“书生”(INTERN)通用视觉技术体系,业界可凭借极低的下游数据采集成本,快速验证多个新场景,对于解锁实现人工智能长尾应用具有重要意义。

根据相关技术报告,一个“书生”基模型即可全面覆盖分类、目标检测、语义分割、深度估计四大视觉核心任务。在ImageNet[4]等26个最具代表性的下游场景中,书生模型广泛展现了极强的通用性,显著提升了这些视觉场景中长尾小样本设定下的性能。

相较于当前最强开源模型(OpenAI 于2021年发布的CLIP[5]),“书生”在准确率和数据使用效率上均取得大幅提升。

新一代通用视觉技术体系“书生”(INTERN)发布

书生(INTERN)在分类、目标检测、语义分割、深度估计四大任务26个数据集上,基于同样下游场景数据(10%),相较于最强开源模型CLIP-R50x16,平均错误率降低了40.2%,47.3%,34.8%,9.4%。同时,书生只需要10%的下游数据,平均错误率就能全面低于完整(100%)下游数据训练的CLIP。

具体而言,基于同样的下游场景数据,“书生”在分类、目标检测、语义分割及深度估计四大任务26个数据集上,平均错误率分别降低了40.2%、47.3%、34.8%和9.4%。

“书生”在数据效率方面的提升尤为令人瞩目:只需要1/10的下游数据,就能超过CLIP基于完整下游数据的准确度。例如,在花卉种类识别FLOWER[6]任务上,每一类只需两个训练样本,就能实现99.7%的准确率。

 

 七大模块:打造全新技术路径

通用视觉技术体系“书生”(INTERN)由七大模块组成,包括通用视觉数据系统、通用视觉网络结构、通用视觉评测基准三个基础设施模块,以及区分上下游的四个训练阶段模块。

“书生”的推出能够让业界以更低的成本,获得拥有处理多种下游任务能力的AI模型,并以其强大的泛化能力支撑智慧城市、智慧医疗、自动驾驶等场景中大量小数据、零数据等样本缺失的细分和长尾场景需求。

新一代通用视觉技术体系“书生”(INTERN)发布

  通用视觉技术体系“书生”(INTERN)由七大模块组成,包括3个基础设施模块、4个训练阶段模块

在“书生”的四个训练阶段中,前三个阶段位于该技术链条的上游,在模型的表征通用性上发力;第四个阶段位于下游,可用于解决各种不同的下游任务。

第一阶段,着力于培养“基础能力”,即让其学到广泛的基础常识,为后续学习阶段打好基础。

第二阶段,培养“专家能力”,即多个专家模型各自学习某一领域的专业知识,让每一个专家模型高度掌握该领域技能,成为专家。

第三阶段,培养“通用能力”,随着多种能力的融会贯通,“书生”在各个技能领域都展现优异水平,并具备快速学会新技能的能力。

在循序渐进的前三个训练阶段模块,“书生”在阶梯式的学习过程中具备了高度的通用性。

当进化到第四阶段时,系统将具备“迁移能力”,此时“书生”学到的通用知识可以应用在某一个特定领域的不同任务中,如智慧城市、智慧医疗、自动驾驶等,实现广泛赋能。

产学研协同:开源共创通用AI生态

作为AI技术的下一个重大里程碑,通用人工智能技术将带来颠覆性创新,实现这一目标需要学术界和产业界的紧密协作。

上海人工智能实验室、商汤科技、香港中文大学以及上海交通大学,未来将依托通用视觉技术体系“书生”(INTERN),发挥产学研一体化优势,为学术研究提供平台支持,并全面赋能技术创新与产业应用。

明年年初,基于“书生”的通用视觉开源生态OpenGVLab将正式开源,向学术界和产业界公开预训练模型、使用范式和数据库等,而全新创建的通用视觉评测基准也将同步开放,推动统一标准上的公平和准确评测。

OpenGVLab将与上海人工智能实验室此前发布的OpenMMLab、OpenDILab一道,共同构筑开源体系OpenXLab,持续推进通用人工智能的技术突破和生态构建。

该文观点仅代表作者,本站仅提供信息存储空间服务,转载请注明出处。若需了解详细的安防行业方案,或有其它建议反馈,欢迎联系我们

(0)
小安小安

相关推荐

  • 东北大学2022年第六批科研设备采购项目——人工智能教学实训系统 招标项目

      项目概况 东北大学2022年第六批科研设备采购项目——人工智能教学实训系统 招标项目的潜在投标人应在辽宁工程招标有限公司110房间,疫情期间建…

    商机 2024年2月4日
  • 网络高清如何应用于智能交通卡口系统

    卡口用于城市道路或高速公路出入口、收费站等治安卡口及重点治安地段的全天候实时检测与记录。可自动识别过往路口车辆号牌和车牌特征,验证出车辆的合法身份,自动核对黑名单库,自动报警,并可对路口情况进行监控和管理,包括出入口车辆管理、采集、存储数据和系统工作状态,以便工作人员对道路安全进行监控,系统维护、统计、查询和打印报表等工作;而且数据准确。

    2023年4月15日
  • 自动柜员机(ATM)专业监控系统防盗卡应用解决方案

    正常工作时,主机通过对摄像机拍摄的插卡口进出卡行为进行行为分析及插卡口的特征分析,一旦发现异常状态即触发报警系统或及时通知管理人员。

    2024年1月17日 方案
  • 海康威视发布iVMS-8710地产综合管理平台V2.0:物业管理帮手

    针对如何提升住宅的管理水平、增强物业与业主的黏性等实际问题,近日,海康威视发布了iVMS-8710地产综合管理平台V2.0版本,通过模块化入口管理极大提升了住宅管理水平。

    2024年1月27日
  • 低成本工业自动化无线数据传输解决方案

    无线通讯技术能够在工厂环境下,为各种智能现场设备、移动机器人以及各种自动化设备之间的通信提高带宽的无线数据链路和灵活的网络拓扑结构,在一些特殊环境下有效地弥补了有线网络的不足,进一步完善了工业控制网络的通信性能。

    2024年1月15日
  • 浅析基于GPRS无线智能家居系统解决方案

    本文提出了基于GPRS无线智能家居系统的总体解决方案。该方案主要是采用GPRS无线通信技术实现远程终端对家庭系统的远程控制;采用RS485总线技术实现家庭系统的组网;采用嵌入式系统方案搭建智能家居控制器的开发平台,并通过该平台实现对家用设备的智能管理和控制。

    2024年1月19日