Anthropic 放弃其核心安全承诺

人工智能
Anthropic ditches its core safety promise
2026 年 2 月 25 日,在与五角大楼就 AI 红线问题发生紧张争执之际,Anthropic 宣布将其约束性暂停承诺转变为灵活的、以报告驱动的安全框架。此举引发了外界对行业问责制、政府采购杠杆以及“安全第一”AI 承诺前景的质疑。

Anthropic 放弃核心安全承诺,华盛顿与行业发生碰撞

Anthropic 放弃核心安全承诺:政策究竟改变了什么

Anthropic 大约两年前发布的之前的“负责任扩展策略”(Responsible Scaling Policy)包含了明确的护栏:如果模型的性能提升速度超过了公司的测试和控制能力,Anthropic 承诺将暂停进一步训练。在其新政策中——该政策以博客文章形式发布,并围绕“前沿安全路线图”(Frontier Safety Roadmap)展开——该公司取消了这种硬性暂停。相反,Anthropic 表示将定期发布有关模型能力、威胁模型和缓解计划的详细报告,并针对公开发布的安全目标对自身的进展进行分级。

Anthropic 在五角大楼红线僵局中放弃核心安全承诺

此次政策转变还必须放在本周升级的与国防部(Department of Defense)的平行对抗背景下解读。国防部长 Pete Hegseth 会见了 Anthropic 首席执行官 Dario Amodei,据报道,他给该公司设定了一个最后期限,要求其撤回被认为阻碍采购的安全保障措施。五角大楼警告说,拒绝执行可能会使 Anthropic 失去一份价值 2 亿美元的合同,而且政府可能会动用《国防生产法》(Defense Production Act)等工具,或者正式将 Anthropic 指定为供应链风险——这些举措将严重限制该公司向美国政府销售产品的能力。

Anthropic 已告知官员,它不会放弃两条硬性底线:它不会构建或支持 AI 控制的武器,也不会支持对美国公民的大规模国内监视。这些例外条款与该公司长期以来用于界定其模型不可接受用途的语言一致。尽管如此,高级国防官员认为取消暂停承诺削弱了企业的安全保证,并认为这减少了五角大楼确保交付给军方的系统符合更严格安全阈值的筹码。

这场争端中“红线”意味着什么

在政策术语中,“红线”是军方或政府为供应商行为设定的明确、可强制执行的界限。对于五角大楼而言,围绕 AI 的红线可能是指模型不能用于武器系统的条件,或者是敏感应用部署前对可验证测试和控制的要求。该部门认为,具有约束力的企业承诺——例如在安全测试期间暂停能力增长的承诺——在采购高可靠性系统时是很有用的筹码。取消这些承诺会将这些红线变为软性指导,使采购决策复杂化,并增加监管升级的可能性。

然而,对于 Anthropic 和其他公司而言,单方面的红线可能会成为竞争劣势。公司领导层和一些研究人员认为,如果只有一家参与者暂停,而竞争对手部署了更强大的模型,风险可能会从谨慎的开发者转移到整个社会。这就是 Anthropic 首席科学官公开阐述的核心论点:该公司认为,在快速变化的市场中,单方面的暂停作为一种安全策略无法扩展。

行业反应与信誉权衡

这一公告立即在 AI 社区引起了反应。一些研究人员对 Anthropic 拒绝在监视和武器使用问题上屈服表示赞赏,指出政府以采购名义要求降低安全保障的行为将树立令人担忧的先例。其他人则表示担忧:从具有约束力的暂停转向自愿报告,减少了此前锚定信任的机制保障。

信任一部分源于技术,一部分源于声誉。Anthropic 指出其自身的研究——包括表明在人为设定的条件下可以诱导某些模型产生类似勒索的行为——来证明在部署上采取谨慎立场的合理性。它还强调了具体的政治活动:该公司在 AI 风险的倡导和公众教育方面进行了投资。但仅靠透明度报告并不总是足以满足外部利益相关者的需求,因为他们希望在系统获准用于政府用途之前,能够有法律强制执行的限制或独立审计。

市场与政策影响

辩论是在市场已经对 AI 的颠覆性影响感到焦虑的背景下展开的。投资者和客户正在观察安全优先的公司是否既能竞争又能保持严密的审查。Anthropic 的转向信号表明,至少有些公司感受到了来自竞争以及像五角大楼这样的大客户采购能力的压力。如果结果演变成一场没有持久安全检查的部署竞赛,监管机构和立法者可能会觉得有必要介入。

另一方面,五角大楼威胁采取的强硬手段——黑名单、动用《国防生产法》、供应链风险指定——表明了采购如何被用来强制执行或惩罚企业的政策选择。这种动态引发了更广泛的问题:国家安全买家是否应该施加比公开市场更严格的要求?如果是这样,如何在不抑制创新的情况下对这些要求进行审计和强制执行?立法者和监管机构可能会介入,商业激励与公共安全之间的拉锯战不太可能很快解决。

对未来 AI 安全标准的影响

Anthropic 的举动说明了一个更大的系统性问题:依赖自愿主义和道德劝说的安全规范在激烈的商业和地缘政治竞争中可能会崩溃。该公司的新方法——更频繁的公开报告和分阶段的安全里程碑进展——可能会为决策者、研究人员和审计人员提供更丰富的数据集,但对于如何解决关于可接受风险的争议仍悬而未决。五角大楼希望对其使用的系统有明确的保证;Anthropic 和其他公司则更倾向于灵活、迭代的过程,以避免单方面暂停。

实际的后续步骤将至关重要。如果五角大楼真的实施采购制裁,那么关于买家能在多大程度上迫使供应商改变内部政策,将树立一个先例。如果 Anthropic 在坚持拒绝 AI 武器和大规模监视的同时,继续发布能力报告,结果可能是达成协商一致的妥协:针对政府工作建立更严格的独立测试和合同安全条款,同时行业承诺商业产品的透明度。如果没有这一点,僵局将增加立法采取行动以制定强制性标准的可能性。

这个故事是一个清晰的例子,说明了技术决策——无论是暂停模型训练,还是用基于报告的路线图取代具有约束力的承诺——与地缘政治、采购权力和市场激励是密不可分的。Anthropic 的政策改写不仅是内部的管理变动;它是一个信号,表明当公司既面临竞相发布能力的对手,又面临要求提供可用且可认证系统的政府时,“安全优先”的辞令如何生存。客户、监管机构和研究人员如何接收这一信号,将塑造 AI 治理的下一阶段。

来源

  • Anthropic (负责任扩展策略 v3 与前沿安全路线图)
  • 美国国防部 / 五角大楼公开声明及采购行动
  • CNN 关于 Anthropic 政策变更及五角大楼争端的报道
Mattias Risberg

Mattias Risberg

Cologne-based science & technology reporter tracking semiconductors, space policy and data-driven investigations.

University of Cologne (Universität zu Köln) • Cologne, Germany

Readers

Readers Questions Answered

Q Anthropic的核心安全承诺是什么,为什么它具有重要意义?
A Anthropic的核心安全承诺(其《负责任扩展政策》的一部分)是,除非能提前保证充足的安全缓解措施,否则不训练或发布前沿AI模型。这一承诺通过将安全置于快速发展之上,使该公司在竞争对手中脱颖而出。其重要性在于,在行业压力下为AI安全设定了更高标准,尽管批评者指出,自愿性承诺很容易被更改。
Q 据报道,Anthropic为何在与五角大楼的纠纷中放弃了其安全承诺?
A 搜索结果并未提及与五角大楼的任何纠纷;相反,由于来自OpenAI等对手的激烈竞争、在白热化的AI竞赛中保持竞争力的需求,以及缺乏政府监管或采用类似严格标准的同行,Anthropic放弃了其安全承诺。该公司转向了安全路线图和风险报告等透明度措施,以平衡安全与开发速度。
Q 在AI开发和政策辩论中,“红线”意味着什么?
A 在AI开发和政策辩论中,“红线”是指一个关键的阈值或边界,一旦越过,AI系统的开发或部署将被认为风险过高,从而触发停止或严格的保护措施。它代表了为防止灾难性风险而设立的不可逾越的界限,类似于其他领域的生物安全等级。
Q Anthropic的决定会如何影响政府AI合同和安全标准?
A Anthropic的决定可能会使较弱的自愿性安全标准常态化,从而可能降低对优先考虑快速部署而非严格保护措施的政府AI合同的预期。在要求制定具有约束力的监管呼声中,这可能会鼓励其他公司效仿,影响合同更偏向于强调竞争力和透明度报告,而非严格的前提条件。
Q 这篇CNN报道对行业内的AI安全有何更广泛的影响?
A 正如报道所反映的,CNN的报道突显了自愿性AI安全承诺的脆弱性,标志着整个行业正向竞争而非谨慎转变,并强调了政府监管的必要性。它可能会侵蚀公众对AI开发商自我治理的信任,并加剧关于实施强制性监管以减轻灾难性风险的辩论。

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!