瑞莱智慧相关团队发表论文 找到多模态大模型「共同弱点」

近日,瑞莱智慧公众号发布文章指出,公司在ICLR 2024的文章《Rethinking Model Ensemble in Transfer-based Adversarial Attacks》中提出了模型“共同弱点”的概念,并据此研发算法来最大化黑盒迁移攻击的效果。

 最近一年来,以GPT-4V为代表的通用多模态大模型快速发展,并形成了丰富多样的落地应用,其中不乏自动驾驶、政务问答等安全敏感场景。大模型的架构均基于深度神经网络,不可避免地承袭了神经网络对抗鲁棒性差、易受干扰等安全风险。

 近日,瑞莱智慧公众号发布文章指出,公司在ICLR 2024的文章《Rethinking Model Ensemble in Transfer-based Adversarial Attacks》中提出了模型“共同弱点”的概念,并据此研发算法来最大化黑盒迁移攻击的效果。这一攻击方法可以引发多个当前最先进的商用多模态大模型(如OpenAI的GPT-4V、谷歌的Bard等)出现各类错误行为。这一结果表明当下最先进的多模态大模型仍然存在对抗鲁棒性差、易受干扰的风险,进一步揭示了大模型在实际应用中的安全风险,亟需更安全、鲁棒、稳定的防御算法为其保驾护航。

 在本篇论文中,瑞莱主要研究集成攻击。集成攻击指的是攻击者使用多个白盒替代模型来制造对抗样本。在这种情况下,对抗样本同时攻击更多的替代模型,通常能够提高对抗样本对黑盒模型的迁移性。这可以类比为深度学习模型的泛化性,当使用更多的训练数据的情况下,模型在测试数据上的泛化性往往可以得到提升。因此,采用更多的白盒替代模型也可以提升生成对抗样本对其他黑盒模型的迁移性/泛化性。

瑞莱智慧相关团队发表论文 找到多模态大模型「共同弱点」

 然而,之前的集成攻击方法仅将这些模型的输出进行平均,从而构造一个新模型,然后使用对抗样本攻击这个新模型。在这种情况下,人们实际上仅仅利用了这个“平均模型”的信息,而没有充分利用每一个模型的信息。

 瑞莱认为要充分利用模型的多样性,同时攻击多个模型各自的薄弱环节,找到这些模型的“共同弱点”,进而生成迁移性更强的对抗样本。通过分析集成攻击的损失函数并将其进行二阶泰勒展开,从数学上发现模型“共同弱点”可以表示为搜索空间中不同模型损失曲线的平滑性和它们局部最优值之间的相近性。

 瑞莱结合了锐度感知最小化算法(Sharpness Aware Minimization, SAM)和梯度余弦相似度最大化(Cosine Similarity Encourager, CSE)两个策略,形成了攻击“共同弱点”的算法(Common Weakness Attack, CWA)。这一算法可以与当前基于梯度的对抗攻击算法无缝组合,来进一步提升对抗样本迁移攻击效果。

 同时瑞莱发现:如果不同模型的梯度方向高度一致,那么针对这些一致方向优化的对抗样本将更有可能同时攻破这些模型。然而,由于实际情况下模型梯度往往存在差异,我们提出了一种策略,旨在提升不同白盒替代模型梯度的余弦相似度。通过这种方式,我们可以更有效地定位并利用这些模型的共同脆弱点,从而生成具有更强迁移能力的对抗样本。

 目前,相关算法已经攻破了谷歌的Bard(现更名为Gemini)、OpenAI的GPT-4V、微软的Bing Chat等多模态大模型。只需基于开源的图像编码器(如CLIP、BLIP2),就可以所提出的方法(CWA)生成对抗样本并作用于闭源的商用模型上,实现红队攻击测试。在攻击谷歌Bard时,CWA生成的对抗样本可以让模型将小刀的图片错误识别为“一个人手里拿着一个热狗”,并由于攻击引起的幻觉给出了细致但没有根据的文本描述。此外,模型在攻击下还会出现无法“看到”图片,因将羊错误识别为人而拒绝服务等错误行为,极大地影响了模型提供服务的稳定性和可靠性。量化指标上,CWA可以在图像描述的任务上,分别实现22%(Bard)、45%(GPT-4V)、26%(Bing Chat)的攻击成功率。这意味着即使是强大的通用多模态大模型,依然存在着对抗鲁棒性差的安全风险漏洞。

 瑞莱提出的新思路展示了即使是当前最先进的商用多模态大模型,依然在安全上存在漏洞。目前主流的对抗防御方法为对抗训练,其需要更大的训练开销,同时会影响模型的精度,在大模型时代可用性不强。这启发行业应当面向大模型设计开发更加可靠和全面的安全性评估框架,同时持续改进和创新大模型的防御机制,以确保人工智能系统在面对各种潜在威胁时的稳健性和可靠性因此。清华大学和RealAI团队近期提出了基于生成式建模的新型对抗防御方法(参见https://arxiv.org/abs/2305.15241;https://arxiv.org/abs/2402.02316),利用生成式模型对数据分布的建模能力,实现对抗样本去噪和鲁棒生成式分类器,取得了SOTA的防御效果,为构建安全可靠的大模型提供了新的可能性。

 论文链接:

 https://openreview.net/forum?id=AcJrSoArlh

 代码链接:

 https://github.com/huanranchen/AdversarialAttacks

 论文作者:

 陈焕然、张亦驰、董胤蓬、杨啸、苏航、朱军

翻译

搜索

复制

阅读剩余 17%

该文观点仅代表作者,本站仅提供信息存储空间服务,转载请注明出处。若需了解详细的安防行业方案,或有其它建议反馈,欢迎联系我们

(0)
小安小安

相关推荐

  • 海康网络摄像端口映射(海康威视摄像机端口映射怎么设置)

    海康网络摄像端口映射 海康网络摄像端口映射是一种重要的网络配置技术,它允许用户通过互联网远程访问和控制摄像设备。本文将介绍海康网络摄像端口映射的原理、配置方法以及其在实际应用中的重…

    知识 2024年12月20日
  • 智能小区 安防系统包括哪些方面

    智能小区安防系统包括哪些方面 1. 视频监控系统 视频监控系统是智能小区安防系统的核心组成部分。通过安装摄像头在小区的关键位置,如入口、出口、公共区域等,可以实时监控小区内的情况。…

    知识 2025年3月5日
  • 安防资质怎么考

    安防资质考试的重要性 安防资质考试是对从事安全防范工作的人员进行能力和知识的考核,是保障社会安全的重要手段。通过考试,可以评估人员的专业素质和技能水平,提高安防工作的质量和效率。安…

    知识 2025年3月12日
  • 什么牌子的解码器有hdmi接口

    什么牌子的解码器有HDMI接口? 在现代家庭娱乐系统中,解码器是一个必不可少的设备,它可以将数字信号转换为可视化和可听的内容。而对于许多用户来说,拥有HDMI接口的解码器是非常重要…

    知识 2025年2月25日
  • 网络摄像头与路由器和手机如何监控视频教程(通过路由器控制手机摄像头)

    网络摄像头与路由器和手机如何监控视频教程 网络摄像头的普及使得远程视频监控变得更加方便和实用。通过连接网络摄像头、路由器和手机,我们可以随时随地监控家庭、办公室或其他场所的情况。本…

    知识 2025年3月1日
  • 监控录像类型怎么设置方法

    监控录像类型的设置方法 1. 连续录像 连续录像是监控系统最常见的录像类型之一。它会不间断地录制监控画面,并将录像文件保存在硬盘或其他存储设备中。设置连续录像的方法通常是在监控设备…

    知识 2025年1月10日