瑞莱智慧相关团队发表论文 找到多模态大模型「共同弱点」

近日,瑞莱智慧公众号发布文章指出,公司在ICLR 2024的文章《Rethinking Model Ensemble in Transfer-based Adversarial Attacks》中提出了模型“共同弱点”的概念,并据此研发算法来最大化黑盒迁移攻击的效果。

 最近一年来,以GPT-4V为代表的通用多模态大模型快速发展,并形成了丰富多样的落地应用,其中不乏自动驾驶、政务问答等安全敏感场景。大模型的架构均基于深度神经网络,不可避免地承袭了神经网络对抗鲁棒性差、易受干扰等安全风险。

 近日,瑞莱智慧公众号发布文章指出,公司在ICLR 2024的文章《Rethinking Model Ensemble in Transfer-based Adversarial Attacks》中提出了模型“共同弱点”的概念,并据此研发算法来最大化黑盒迁移攻击的效果。这一攻击方法可以引发多个当前最先进的商用多模态大模型(如OpenAI的GPT-4V、谷歌的Bard等)出现各类错误行为。这一结果表明当下最先进的多模态大模型仍然存在对抗鲁棒性差、易受干扰的风险,进一步揭示了大模型在实际应用中的安全风险,亟需更安全、鲁棒、稳定的防御算法为其保驾护航。

 在本篇论文中,瑞莱主要研究集成攻击。集成攻击指的是攻击者使用多个白盒替代模型来制造对抗样本。在这种情况下,对抗样本同时攻击更多的替代模型,通常能够提高对抗样本对黑盒模型的迁移性。这可以类比为深度学习模型的泛化性,当使用更多的训练数据的情况下,模型在测试数据上的泛化性往往可以得到提升。因此,采用更多的白盒替代模型也可以提升生成对抗样本对其他黑盒模型的迁移性/泛化性。

瑞莱智慧相关团队发表论文 找到多模态大模型「共同弱点」

 然而,之前的集成攻击方法仅将这些模型的输出进行平均,从而构造一个新模型,然后使用对抗样本攻击这个新模型。在这种情况下,人们实际上仅仅利用了这个“平均模型”的信息,而没有充分利用每一个模型的信息。

 瑞莱认为要充分利用模型的多样性,同时攻击多个模型各自的薄弱环节,找到这些模型的“共同弱点”,进而生成迁移性更强的对抗样本。通过分析集成攻击的损失函数并将其进行二阶泰勒展开,从数学上发现模型“共同弱点”可以表示为搜索空间中不同模型损失曲线的平滑性和它们局部最优值之间的相近性。

 瑞莱结合了锐度感知最小化算法(Sharpness Aware Minimization, SAM)和梯度余弦相似度最大化(Cosine Similarity Encourager, CSE)两个策略,形成了攻击“共同弱点”的算法(Common Weakness Attack, CWA)。这一算法可以与当前基于梯度的对抗攻击算法无缝组合,来进一步提升对抗样本迁移攻击效果。

 同时瑞莱发现:如果不同模型的梯度方向高度一致,那么针对这些一致方向优化的对抗样本将更有可能同时攻破这些模型。然而,由于实际情况下模型梯度往往存在差异,我们提出了一种策略,旨在提升不同白盒替代模型梯度的余弦相似度。通过这种方式,我们可以更有效地定位并利用这些模型的共同脆弱点,从而生成具有更强迁移能力的对抗样本。

 目前,相关算法已经攻破了谷歌的Bard(现更名为Gemini)、OpenAI的GPT-4V、微软的Bing Chat等多模态大模型。只需基于开源的图像编码器(如CLIP、BLIP2),就可以所提出的方法(CWA)生成对抗样本并作用于闭源的商用模型上,实现红队攻击测试。在攻击谷歌Bard时,CWA生成的对抗样本可以让模型将小刀的图片错误识别为“一个人手里拿着一个热狗”,并由于攻击引起的幻觉给出了细致但没有根据的文本描述。此外,模型在攻击下还会出现无法“看到”图片,因将羊错误识别为人而拒绝服务等错误行为,极大地影响了模型提供服务的稳定性和可靠性。量化指标上,CWA可以在图像描述的任务上,分别实现22%(Bard)、45%(GPT-4V)、26%(Bing Chat)的攻击成功率。这意味着即使是强大的通用多模态大模型,依然存在着对抗鲁棒性差的安全风险漏洞。

 瑞莱提出的新思路展示了即使是当前最先进的商用多模态大模型,依然在安全上存在漏洞。目前主流的对抗防御方法为对抗训练,其需要更大的训练开销,同时会影响模型的精度,在大模型时代可用性不强。这启发行业应当面向大模型设计开发更加可靠和全面的安全性评估框架,同时持续改进和创新大模型的防御机制,以确保人工智能系统在面对各种潜在威胁时的稳健性和可靠性因此。清华大学和RealAI团队近期提出了基于生成式建模的新型对抗防御方法(参见https://arxiv.org/abs/2305.15241;https://arxiv.org/abs/2402.02316),利用生成式模型对数据分布的建模能力,实现对抗样本去噪和鲁棒生成式分类器,取得了SOTA的防御效果,为构建安全可靠的大模型提供了新的可能性。

 论文链接:

 https://openreview.net/forum?id=AcJrSoArlh

 代码链接:

 https://github.com/huanranchen/AdversarialAttacks

 论文作者:

 陈焕然、张亦驰、董胤蓬、杨啸、苏航、朱军

翻译

搜索

复制

该文观点仅代表作者,本站仅提供信息存储空间服务,转载请注明出处。若需了解详细的安防行业方案,或有其它建议反馈,欢迎联系我们

(0)
小安小安

相关推荐

  • 抽帧是什么意思

    帧就是影像动画中最小单位的单幅影像画面,相当于电影胶片上的每一格镜头。 安防监控行业的抽帧通常指通过后台设置,不使用全帧率(25FPS/30FPS或60FPS)而使用设定帧率,一般…

    2023年7月16日
  • 猜想未来公共安全视频监控领域几大创新技术

    从《意见》中可以看出智能分析、云计算、云存储和大数据挖掘等众多创新技术对公共安全领域的技术革新产生的深远的影响。随着视频监控技术和公安业务需求的不断发展,公共安全领域对视频监控的规划和需求建设重点,正在从布点数量向管理应用质量提升转变。

    2024年4月8日
  • 数字监控系统概述

    数字监控系统:采用当今世界最得天独厚进的计算机全数字压缩监控系统,具有传统的监控系统无法比拟的优点。它不受各种人为的干扰,对所监控的地点时行监控,具有视频报警功能,可以任意设置报警区域,自动向预定的电话(手机、呼机、单位电话等)报警,真正的做到了系统的安全性。它具有以下优势:

    2024年4月20日
  • 弱电资质证书如何申请(如何申请弱电资质证书?申请流程和要求解析)

    弱电资质证书是指电气工程中的弱电工程专业技术资质,包括通信工程、广播电视工程、安全防范工程等。对于从事弱电工程的企业或个人来说,获得弱电资质证书可以提高工程质量和竞争力,因此申请弱…

    2023年7月22日
  • 家用poe监控系统多少钱

    家用POE监控系统多少钱? 家用POE监控系统是一种高效、便捷的安全监控解决方案,它通过使用Power over Ethernet(POE)技术,将电力和数据传输合并在一根网线上,…

    2023年9月18日
  • 如何落实好智慧城市建设、一体建设数字政府、数字经济?

    北京市政府工作报告中指出,今年将大力推进智慧城市建设。加强顶层设计,布局全域应用场景,一体建设数字政府、数字经济、数字社会。这一要求如何落实?

    2024年4月5日