新闻中心

20步内越狱任意大模型!更多“奶奶漏洞”全自动发现

2023-11-05
浏览次数:
返回列表

不到一分钟、不超过20步,任意绕过安全限制,成功越狱大型模型!

而且不必知道模型内部细节——

只需要两个黑盒模型互动,就能让AI全自动攻陷AI,说出危险内容。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

20步内越狱任意大模型!更多“奶奶漏洞”全自动发现

听说曾经红极一时的“奶奶漏洞”已经被修复了:

20步内越狱任意大模型!更多“奶奶漏洞”全自动发现

如今,面对“侦探漏洞”、“冒险家漏洞”和“作家漏洞”,人工智能应该采取何种应对策略呢?

20步内越狱任意大模型!更多“奶奶漏洞”全自动发现

一波猛攻下来,GPT-4也遭不住,直接说出要给供水系统投毒只要……这样那样。

关键这只是宾夕法尼亚大学研究团队晒出的一小波漏洞,而用上他们最新开发的算法,AI可以自动生成各种攻击提示。

研究人员表示,这种方法相比于现有的GCG等基于token的攻击方法,效率提高了5个量级。而且生成的攻击可解释性强,谁都能看懂,还能迁移到其它模型。

无论是开源模型还是闭源模型,GPT-3.5、GPT-4、 Vicuna(Llama 2变种)、PaLM-2等,一个都跑不掉。

新SOTA被成功率高达60-100%的人所攻略

话说,这种对话模式好像有些似曾相识。多年前的初代AI,20个问题之内就能破解人类脑中想的是什么对象。

如今AI需要解决AI的问题

20步内越狱任意大模型!更多“奶奶漏洞”全自动发现

让大模型集体越狱

目前主流越狱攻击方法有两类,一种是提示级攻击,一般需要人工策划,而且不可扩展;

另一种是基于token的攻击,有的需要超十万次对话,且需要访问模型内部,还包含“乱码”不可解释

20步内越狱任意大模型!更多“奶奶漏洞”全自动发现
△左提示攻击,右token攻击

宾夕法尼亚大学研究团队提出了一种叫PAIR(Prompt Automatic Iterative Refinement)的算法,不需要任何人工参与,是一种全自动提示攻击方法。

20步内越狱任意大模型!更多“奶奶漏洞”全自动发现

PAIR包含四个主要步骤:攻击生成、目标响应、越狱评分和迭代细化。这个过程中使用了两个黑盒模型:攻击模型和目标模型

具体来说,攻击模型需要自动生成语义级别的提示,来攻破目标模型的安全防线,迫使其生成有害内容。

核心思路是让两个模型相互对抗、你来我往地交流。

短影AI 短影AI

长视频一键生成精彩短视频

短影AI 170 查看详情 短影AI

攻击模型会自动生成一个候选提示,然后输入到目标模型中,得到目标模型的回复。

如果无法成功攻破目标模型,攻击模型将会分析失败的原因,并进行改进,生成一个新的提示,再次输入到目标模型中

20步内越狱任意大模型!更多“奶奶漏洞”全自动发现

这样持续交流多轮,攻击模型每次根据上一次的结果来迭代优化提示,直到生成一个成功的提示将目标模型攻破。

此外,迭代过程还可以并行,也就是可以同时运行多个对话,从而产生多个候选越狱提示,进一步提高了效率。

研究人员表示,由于两个模型都是黑盒模型,所以攻击者和目标对象可以用各种语言模型自由组合。

PAIR不需要知道它们内部的具体结构和参数,只需要API即可,因此适用范围非常广。

GPT-4也没能逃过

实验阶段,研究人员在有害行为数据集AdvBench中选出了一个具有代表性的、包含50个不同类型任务的测试集,在多种开源和闭源大语言模型上测试了PAIR算法。

结果PAIR算法让Vicuna越狱成功率达到了100%,平均不到12步就能攻破。

20步内越狱任意大模型!更多“奶奶漏洞”全自动发现

在封闭源代码模型中,GPT-3.5和GPT-4的越狱成功率约为60%,平均所需步骤不到20步。而在PaLM-2模型中,越狱成功率达到了72%,所需步骤约为15步

在Llama-2和Claude上,PAIR的效果较差,研究人员认为这可能是因为这些模型在安全防御方面进行了更严格的微调

他们还对不同目标模型的可转移性进行了比较。研究结果显示,PAIR的GPT-4提示在Vicuna和PaLM-2上的转移效果更佳

20步内越狱任意大模型!更多“奶奶漏洞”全自动发现

研究人员认为,PAIR生成的语义攻击更能暴露语言模型固有的安全缺陷,而现有的安全措施更侧重防御基于token的攻击。

就比如开发出GCG算法的团队,将研究结果分享给OpenAI、Anthropic和Google等大模型厂商后,相关模型修复了token级攻击漏洞。

20步内越狱任意大模型!更多“奶奶漏洞”全自动发现

大模型针对语义攻击的安全防御机制还有待完善。

论文链接:https://arxiv.org/abs/2310.08419

以上就是20步内越狱任意大模型!更多“奶奶漏洞”全自动发现的详细内容,更多请关注其它相关文章!


# 漏洞  # 查询seo什么意思  # 各种seo搜索推广  # 外贸网站优化推广多少钱  # 企业对SEO需求大吗  # 仙桃关键词排名  # 多项  # 迭代  # 只需要  # 亚洲  # 达到了  # 所需  # 多个  # 就能  # 自动生成  # 宾夕法尼亚大学  # llama  # claude  # gpt-4  # seo进阶培训内容广告  # 香港抖音营销推广方式  # 食品网站推广营销  # 金东品牌推广营销价格  # 蒲江快速汽车网站建设 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 如何用固态硬盘做缓存  typescript适合什么用  typescript为什么现在才火  单片机怎么加死循环  access中如何使用常用宏命令  夸克是什么用途  联想手机如何输入命令行  怎么用win7系统盘重装系统  有什么基础可以学typescript  折叠手机内屏为什么会坏  如何用好typescript  为什么夸克网盘下载不了  固态硬盘如何判断大小  m*en repository的作用是什么  电动车eco和power是什么意思  小屏折叠屏手机有哪些  本科一批和本科二批是什么意思  typescript的文件如何执行  固态硬盘如何备份  NoSQL数据库有哪些特点  如何在命令提示符播放音频  公司的tm市盈率为负是什么意思  摄像机的power chg是什么意思中文  哪些编程软件需要typescript  vi命令如何退出编辑模式  面包车收音机power是什么意思  如何发挥固态硬盘性能  openwrt有哪些功能  typescript入门要多久  什么叫typescript  typescript怎么加号  华为的nfc功能是什么意思  j*a数组求和怎么算  单片机串口接收怎么实现  固态硬盘如何接主机  2025年哪个局域网聊天软件好用  夸克内测有什么好处  play的三人称单数和过去式  跑步机power键是什么意思  折叠屏手机好不好,耐不耐用  苹果16promax有哪些颜色  怎么批量烧写单片机  苹果16将会带来哪些升级  开机如何进入命令行模式  typescript如何开发  如何通过dos命令  typescript中如何引入本地js  shell如何执行sql脚本命令行  animal是什么意思  typescript学多久可以学会 

搜索