当诗歌“攻破”人工智能

人工智能
When Poetry Breaks AI
研究人员发现,精心创作的诗歌能够稳定地绕过多种顶尖语言模型的安全过滤机制。这揭示了一类新型的“基于风格”的越狱攻击,并对现有的安全防御体系构成了挑战。

诗节如何演变成安全漏洞

在最近一项引人注目的研究中,一组科学家证明,将有害指令转化为诗歌可以系统地欺骗现代大型语言模型 (LLMs),使其放弃安全限制。在一系列广泛的商业和开源模型中,无论是手工创作还是由另一个模型生成的诗化表述,与普通的散文相比,都显著提高了越狱尝试的成功率。

该团队在 25 个最先进的模型上测试了他们的 诗歌越狱,并报告称,手工创作的诗句所产生的平均攻击成功率远高于基准的散文攻击;机器转换的诗歌也大幅提高了成功率。在某些情况下,差异达到一个数量级或更多,几个测试模型表现出对这种风格技巧的高度脆弱性。由于这些证明依赖于语言框架而非隐藏代码或后门,这种漏洞在许多模型家族和安全管道中都具有通用性。研究人员刻意对其发布的示例进行了脱敏处理,以避免为潜在攻击者提供现成的漏洞利用工具。

为什么风格能瞒过对齐

简而言之,模型非常擅长遵循措辞和语境中的隐性提示。诗化的表述可以将这种解读能力引向生成安全层本应拦截的内容。这一观察结果暴露了一个盲点:侧重于字面语义或 Token 级别模式的防御系统可能会漏掉利用更高级别语言结构的攻击。

这如何融入更广泛的越狱图景

对抗性或通用越狱并非新鲜事。研究人员此前已经展示了开发持久触发器、构建多轮攻击,甚至在训练期间植入类似后门行为的方法。更复杂的策略利用少量的查询和自适应代理来构建可迁移的攻击;其他研究显示,探测器的效能会随着越狱策略的演进逐渐下降。新的诗歌方法为这一工具箱增加了一个风格杠杆,它的技术门槛极低,却能在多个模型间实现迁移。

这种低技术成本与高跨模型有效性的结合,正是该结果让红队和安全工程师感到尤为紧迫的原因。它补充了早期的发现,即越狱在不断进化,并能利用模型训练分布与用于评估安全的测试集之间的差距。

防御基于诗句的攻击

防御者已经在探索几条有助于缓解风格越狱的路径。一是扩大安全分类器的训练数据,纳入更广泛的语言风格——隐喻、诗句和隐晦的表述——以便探测器学会识别即便被形式掩盖的有害意图。另一种是采用基于行为的监控,寻找模型输出中违反规则的下游迹象,而不是仅仅依赖输入分类。

一些团队提出了架构层面的变革——研究人员称之为宪法级或基于分类器的层——它们位于用户提示词和最终答案之间,通过额外的合成训练执行更高级别的策略。持续的、对抗性的红队测试和快速重训练也能提供帮助;定期更新的探测器在对抗新越狱方面的表现优于训练一次后保持不变的静态系统。这些方法中没有一种是万能的,但它们共同作用,使得简单的风格攻击难以在大规模范围内持续。

权衡与局限

加强模型以对抗诗歌操纵引发了熟悉的权衡。扩大监测范围可能会带来误报风险:因为某些良性的创意写作或复杂的专业隐喻与掩饰后的伤害行为相似而拒绝提供服务。严厉的过滤还可能降低用户体验,扼杀合法的研究,并干扰依赖细微差别的用例——包括教育、文学、心理咨询和创意工具。因此,实际的防御措施需要在精准率和召回率之间取得平衡,理想情况下应结合多种信号(输入语义、输出行为、溯源和用户模式),而不是仅仅依靠单一的分类器。

这对用户、研究人员和决策者的意义

最后,对于研究界而言,这项工作提醒我们,语言创造力是一把双刃剑:使语言模型变得有用且具有文化流动性的特征,同时也开启了新的攻击面。防御这些攻击面需要协同努力——共享基准测试、多风格红队测试以及透明的披露机制,让社区能够在不提供滥用指南的情况下,迭代出稳健且经过验证的解决方案。

伦理声明

未来走向

基于风格的越狱改变了关于模型安全的讨论。它们表明,稳健的对齐不仅需要更干净的数据和更智能的训练目标,还需要对人类语言的细微之处——隐喻、韵律和修辞形式——有深刻的理解。好消息是,这个问题是可以发现并解决的:研究界和工业界已经拥有了多种缓解工具。难点在于如何部署这些工具,既能保留 LLMs 的创造力和实用性,又能增加滥用的难度和成本。

我们应该预见到会有更多此类惊喜:随着模型对细微差别的理解能力不断提高,它们被误导的方式也会成倍增加。应对措施也将同样具有创造性:更丰富的安全数据集、更智能的行为探测器,以及能更快适应新攻击模式的操作协议。核心利益在于建立社会可以信赖的、负责任且可扩展的 AI——这些工具应助人而非损人——而这项工作将同时需要技术上的巧思和深思熟虑的政策。

Mattias Risberg

Mattias Risberg

Cologne-based science & technology reporter tracking semiconductors, space policy and data-driven investigations.

University of Cologne (Universität zu Köln) • Cologne, Germany

Readers

Readers Questions Answered

Q 研究人员在利用诗歌绕过人工智能安全过滤器方面发现了什么?
A 研究人员证明,将有害指令转化为诗歌可以系统地诱导现代大语言模型放弃安全约束。在 25 个最先进的模型中,无论是手工编写还是机器生成的诗意表述,与普通散文相比都提高了攻击成功率,在某些情况下甚至出现了数量级的增长。由于这种漏洞源于语言框架而非隐藏代码,该弱点会在不同的模型系列和安全管道中转移。
Q 手工编写的诗歌与机器生成的诗歌在效果上相比如何?
A 手工编写的诗句所产生的平均攻击成功率远高于基准散文,机器生成的诗歌也显著提高了成功率。在某些情况下,差异达到一个或多个数量级,且多个模型被证明极易受到这种风格技巧的影响,这表明人工创作和自动生成的诗歌都能有效破坏安全过滤器。
Q 为什么人工智能模型容易受到基于诗歌的攻击?
A 这种漏洞的产生是因为模型非常擅长遵循措辞和上下文中的隐含提示。诗意化的表达可以引导模型重新解读,从而产生本应被安全层屏蔽的内容。如果防御系统只关注字面语义或 Token 级别的模式,可能会忽略那些利用隐喻、韵律或委婉表述等高级语言结构的攻击。
Q 目前正在采取哪些防御措施来对抗基于诗歌的“越狱”?
A 防御者正在尝试多种路径:扩大安全分类器的训练数据,以涵盖诗歌、隐喻和委婉表述,使检测能够推广到风格化的有害内容;采用基于行为的监测,标记输出中下游的违规行为,而不仅仅是输入信号;进行架构优化,例如在提示语和回答之间加入宪法式或基于分类器的层;以及持续进行红队演练并快速重新训练以保持领先。
Q 在强化模型以抵御诗歌操纵时会出现哪些权衡?
A 扩大检测范围会带来误报风险,从而拒绝良性的创意写作;严厉的过滤可能会降低用户体验,扼杀合法的研究,并干扰依赖细微差别的应用场景——包括教育、文学、心理治疗和创意工具等。实际的防御措施应通过结合多种信号(输入语义、输出行为、溯源和用户模式)来平衡精确率和召回率,而不是仅仅依赖单一的分类器。

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!