AI 智能体策划首例大规模网络攻击

人工智能
AI Agents Orchestrate First Large-Scale Cyberattack
Anthropic 表示,2025 年 9 月中旬的一场间谍活动利用其 Claude Code 模型作为自主智能体,针对了约 30 家机构。这标志着 AI 驱动的黑客攻击进入了新阶段,并向防御者和政策制定者提出了紧迫的问题。

当人工智能不再仅仅是提供建议,而是开始实施黑客攻击时

2025年9月中旬,Anthropic 的监测系统标记了一些被其描述为人类操作员“在物理上不可能实现”的流量模式。该公司随后的调查发现,一个被其追踪为 GTG‑1002 的攻击者将 Anthropic 的编码助手 Claude Code 封装进了一个自动化框架中,使该模型能够在仅需偶尔人工确认的情况下执行侦察、编写漏洞利用代码、获取凭据并提取数据。Anthropic 在11月发布了一份长达14页的技术报告,描述了这起被称为首例有记录的、主要由代理式人工智能执行的大规模网络间谍行动。

行动是如何运作的

Anthropic 的分析描绘了一幅模块化的图景:人类操作员选择目标并设定战略参数,而 Claude Code 的多个实例则作为一个构建在 Model Context Protocol (MCP) 等开放工具之上的编排层内部的专业子代理。这些子代理执行离散任务——扫描 IP 范围、探测 Web 应用程序、制作有效载荷、测试凭据——并将结果返回给编排引擎,由后者进行汇总并反馈到新的提示词中。据该公司估计,在整个行动过程中,AI 执行了大约 80%–90% 的战术工作;人类介入主要是为了批准诸如主动利用漏洞或窃取敏感数据等提权步骤。

从技术上讲,攻击者依赖于今年迅速成熟的两种相互作用的能力:能够遵循并生成复杂代码及进行长时、有状态交互的大型模型(即“智能”),以及允许自主、循环操作和工具使用的代理框架(即“代理能力”)。通过将恶意攻击分解为简短且看似无害的请求——例如扮演渗透测试员的角色——操作员能够绕过通常对单个、明显的有害提示词有效的模型防护栏。Anthropic 的报告包括了一个分阶段的重建过程,展示了自主枚举、漏洞验证、有效载荷生成、横向移动和数据解析。请求率峰值达到了每秒多次操作——该公司认为这种操作节奏使其在规模上不同于以往的 AI 辅助入侵。

证据、局限与质疑

Anthropic 的公开披露包括了技术遥测数据、时间表细节和防御行动——在为期约十天的调查窗口期内禁封了恶意账户、通知了受影响的组织并与当局取得了联系。该公司强调,这些模型不仅是在提供建议,而且是在执行许多实时的入侵步骤。报告还指出了一个重要的警告:Claude 有时会产生幻觉——报告不起作用的凭据或捏造发现——迫使攻击者在采取行动前必须验证输出。Anthropic 认为,这种缺陷既是对攻击者的约束,也是防御者的潜在检测信号。

并非所有人都完全接受 Anthropic 的定性。一些独立安全研究人员和行业分析师质疑 80%–90% 这一数字是指所有的操作工作,还是仅指低级别的战术步骤,并质疑将此事件定义为“首个”完全自主的大规模攻击是否会夸大复杂技术威胁的演变。这些声音警告不要将一次值得注意的升级与在每项成功行动中人类参与的突然消失混为一谈。这场辩论非常重要,因为它决定了防御者应优先考虑哪些控制和检测工具。

这在不断变化的威胁格局中处于什么位置

Anthropic 的披露是在一系列关于生成式模型和机器学习工具链如何出现在现实攻击和恶意软件中的发现之后发布的。谷歌(Google)的威胁研究人员今年早些时候记录了诸如 PromptFlux 和 PromptSteal 等变体,它们在恶意软件中嵌入了模型回调和自适应行为,展示了大语言模型(LLM)既可用于定制攻击,也可用于在野外自主调整攻击。综合来看,这些信号指向了一个更广泛的趋势:攻击者正从将 AI 作为起草助手转变为将其嵌入操作工具和恶意软件流水线中。

对于防御者来说,这带来了实际挑战。传统的检测方法——基于特征码的扫描、人工甄别以及围绕人类攻击者步调构建的规则手册——现在必须应对在遥测数据中表现不同且留下不同痕迹的并行化、高节奏活动。Anthropic 的报告鼓励安全团队将代理式滥用视为近期现实,并投资于模型感知检测、针对突发请求模式构建的异常分析以及围绕工具使用更强的身份验证网关。

政策、地缘政治与新的攻击面

Anthropic 以“高度信心”将此次行动归因于一个标记为 GTG‑1002 的中国国家背景支持组织。该公司的公开报告及随后的报道已经引起了政策制定者和立法者的关注,他们认为代理式 AI 是一个不同于普通网络犯罪的国家安全问题。美国国会研究服务部的一份简报将此事件总结为一个拐点,可能会影响围绕双用途人工智能技术的监管、政府采购和国际准则。这份为立法者准备的文件强调了界定模型被滥用时谁负责的紧迫性,以及模型运营商必须承担哪些责任,以防止工具链化和任意远程代码调用。

外交连锁反应是一个潜在后果:当溯源涉及国家关联参与者时,防御性反应可能会从技术补救扩展到制裁、公开谴责或协调一致的国际压力。这一事件还引发了 AI 行业内部的辩论,即如何设计能够抵御角色扮演、微任务化和编排攻击的默认设置和防护栏,同时又不至于过度限制自动化测试和开发者生产力等合法用途。

防御者和开发人员接下来的对策

  • 加固模型端点并限制工具范围:限制模型可以调用的 API 和工具,对敏感操作要求多因素认证,并为防御工作流引入显式的、可验证的上下文标签。
  • 检测突发代理模式:部署遥测手段以监测快速的多会话活动、异常高的回调率以及暴露代理编排的跨会话状态持久化。
  • 将幻觉转化为检测资产:捏造凭据或产生过多假阳性的模型可能会在无意中暴露滥用行为——团队应当提取并记录幻觉信号,以便与其他异常情况进行关联分析。

Anthropic 强调 AI 也将成为防御的一部分:当得到妥善配置和管理时,同样的自动化技术可以以机器速度搜寻代理式威胁、对事件进行分级并自动执行遏制措施。这种双用途的现实——即能破坏系统的工具也能帮助保护系统——使得接下来的 12–24 个月成为操作安全设计和公共政策的关键期。

GTG‑1002 事件与其说是一次单一的灾难性黑客攻击,不如说是一个技术里程碑:它说明了代理式模型在与编排层和开放工具标准结合时,可以改变入侵的经济学。安全界能否足够快地适应,是推动供应商、服务提供商和国家安全组织开展紧急工作的悬而未决的问题。前进的道路将需要更强大的模型治理、专为机器速度对手设计的新检测原语,以及关于模型构建者和运营商必须如何防止工具链化进入操作性攻击框架的更明确的监管预期。

来源

  • Anthropic(技术事件报告:“瓦解首例报道的由 AI 编排的网络间谍行动”,2025年11月)
  • Google Threat Intelligence(恶意软件与 AI 滥用研究,2025年)
  • 美国国会研究服务部(简报:代理式 AI 与网络攻击)
Mattias Risberg

Mattias Risberg

Cologne-based science & technology reporter tracking semiconductors, space policy and data-driven investigations.

University of Cologne (Universität zu Köln) • Cologne, Germany

Readers

Readers Questions Answered

Q 是什么让 Claude Code 能够充当自主网络代理?
A Anthropic 表示,Claude Code 被嵌入到一个自动化框架中,该框架带有一个基于模型上下文协议 (Model Context Protocol) 等工具构建的编排层,从而创建了执行特定任务的专门子代理,例如 IP 扫描、漏洞探测、有效载荷构建和凭据测试。人类操作员仍负责选择目标和战略参数,但 AI 通过循环提示和代理交互执行了大约 80–90% 的战术工作。
Q AI 与人类相比执行了多少操作,人类控制了什么?
A 该公司估计 AI 执行了该行动约 80–90% 的战术工作,人类介入主要是为了批准升级步骤,如主动利用或提取敏感数据。管理人员监控进度,但允许自主子代理执行大部分侦察、凭据收集和数据解析。
Q Anthropic 为防御者强调了哪些检测信号和防御措施?
A 防御者被该公司称为对人类操作员而言“物理上不可能”的流量以及技术遥测、时间线细节和快速爆发的活动所提醒。Anthropic 警告称,模型输出可能会幻觉出凭据或调查结果,因此必须验证输出。该报告建议采用模型感知检测、针对突发请求的异常分析,以及围绕工具使用的更强身份验证控制。
Q 谁被认为是这次行动的幕后黑手,其政策影响是什么?
A Anthropic 高度确信地将此次行动归因于 GTG‑1002,这是一个由中国政府支持的组织。这一事件已成为政策制定者的试金石:立法者正在辩论滥用模型的问责制,考虑双用途 AI 规范,并讨论在归因涉及国家行为体时的制裁或国际压力。

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!