中科院软件所发布全新CV模型ViG,性能超越ViT

现在,中科院与华为诺亚方舟实验室等提出一种全新的骨干网络,把图片表示成图结构数据,让GNN也能完成经典CV三大任务。论文一出,立即引起GNN学者广泛关注。

【安防在线 www.anfang.cn】用图神经网络(GNN)做CV的研究有不少,但通常是围绕点云数据做文章,少有直接处理图像数据的。

其实与CNN把一张图片看成一个网格、Transformer把图片拉直成一个序列相比,图方法更适合学习不规则和复杂物体的特征。

现在,中科院与华为诺亚方舟实验室等提出一种全新的骨干网络,把图片表示成图结构数据,让GNN也能完成经典CV三大任务。论文一出,立即引起GNN学者广泛关注。

中科院软件所发布全新CV模型ViG,性能超越ViT

有人认为GNN领域积累多年的技巧都将涌入这一新方向,带来一波研究热潮。

该来的总要来的。新架构ViG命名上致敬了ViT,论文标题也采用同一句式,点出了核心思想:

An Image is Worth Graph of Nodes在研究团队看来,图结构是一种更通用的数据结构。甚至网格和序列可以当作图结构的特例,用图结构来做视觉感知会更加灵活。

图数据由节点和边组成,如果把每个像素都看作节点计算难度过于大了,因此研究团队采用了切块(patch)方法。

对于224×224分辨率的图像,每16×16像素为一个Patch,也就是图数据中的一个节点,总共有196个节点。

对每个节点搜索他们距离最近的节点构成边,边的数量随网络深度而增加。

接下来,网络架构分为两部分:

一个图卷积网络(GCN),负责处理图数据、聚合相邻节点中的特征。

一个前馈神经网络(FFN),结构比较简单是两个全连接层的MLP,负责特征的转换。传统GCN会出现过度平滑现象,为解决这个问题,团队在图卷积层前后各增加一个线性层,图卷积层后再增加一个激活函数。

实验表明,用上新方法,当层数较多时ViG学习到的特征会比传统ResGCN更为多样。同算力成本下不输CNN和ViT

为了更准确评估ViG的性能,研究团队设计了ViT常用的同质结构(isotropic)和CNN常用的金字塔结构(Pyramid)两种ViG网络,来分别做对比实验。

同质架构ViG分为下面三种规格。与常见的同质结构CNN、ViT与MLP网络相比,ViG在同等算力成本下ImageNet图像分类的表现更好。金字塔结构的ViG网络具体设置如下。同等算力成本下,ViG也与最先进的CNN、ViT和MLP相比,性能也能超越或表现相当。在目标检测和实例分割测试上,ViG表现也与同等规模的Swin Transformer相当。最后,研究团队希望这项工作能作为GNN在通用视觉任务上的基础架构,Pytorch版本和Mindspore版本代码都会分别开源。

该文观点仅代表作者,本站仅提供信息存储空间服务,转载请注明出处。若需了解详细的安防行业方案,或有其它建议反馈,欢迎联系我们

(0)
小安小安

相关推荐

  • “数字环卫”亮相哈尔滨西客站

    据介绍,西客站地区作为全市的城市管理实验区,斥资2000万元全面实施数字化环境作业管理,建立起数字环境作业新机制,并首创了以“智能化管理、机械化清扫、电动化保洁”为主要特点的新型作业模式,通过视频监控、GPS定位轨迹跟踪、无线对讲指挥、作业现场鉴证管理有机结合,使管理效率提高2-3倍。

    2024年4月15日
  • Axis推出全帧速视频服务器解决方案

    3月13日,Axis Communications在上海推出了一款机架视频服务器解决方案。

    2024年2月2日
  • 美电贝尔推出物联网综合管理平台

    美电贝尔智能联网报警视频监控管理平台是美电贝尔花费多年时间以及大量专业技术人才专门为大型联网监控系统制作的平台软件,凝聚了本公司多年安防经验及汇聚行业资深专家精心打造的先进监控平台…

    2024年2月22日
  • 吴堡县新增56只监控探头 昼夜防范为民保平安

    据了解,今年吴堡共投资426万元建成了公安城市视频监控联网传输平台,28万元用于公安四级网升级改造系统,30万元建成桥头省际检查站及猴桥检查站,信息化建设累计投资484万元,切实将吴堡拉网式地布控,做到百密而无一疏。

    2024年6月15日
  • 上海出台水务海洋管理精细化工作三年行动计划

    近日,上海水务局印发了《上海市水务海洋管理精细化工作三年行动计划》,要求以超大城市水系统治理现代化需求为发展导向,以更韧性、更智慧、更宜居的治理现代化为发展目标,以全面推进美丽中国…

    2024年6月23日
  • 能源产业数字化建设提速

    《关于加快推进能源数字化智能化发展的若干意见》提出到2030年,能源系统各环节数字化智能化创新应用体系初步构筑、数据要素潜能充分激活。

    2024年11月30日