他们公布了数据,随后又要求踩下刹车
2026年6月4日,Anthropic Institute 发布了一篇题为“当人工智能实现自我构建”(When AI builds itself)的文章,读起来就像是一份带有警示标签的工程审计报告:该公司称,在 Anthropic 内部,Claude 系列模型已经从几乎不编写生产代码,转变为贡献了大部分合并的代码变更——截至2026年5月,合并到代码库中的行数超过80%——工程师们现在更多是在指导和审查由模型撰写的代码,而不是亲手编写。在展示了这些内部数据后,Anthropic 得出结论:如果模型自我改进的速度超过了人类的管理能力,世界应该建立一种“减缓或暂时中止前沿人工智能发展”的机制。
Anthropic 呼吁全球暂停:内部证据与利害关系
核心统计数据——自2024年底以来,Claude 在生产提交中占据了主要份额,且每位工程师的产出成倍增长——并非公关辞令。Anthropic 展示的图表和内部调查结果显示,当模型从建议转向自主执行时,出现了明显的拐点,并将这种变化直接与研究人员所称的“递归自我改进”(recursive self-improvement)这一类风险联系起来。如果一个系统能够可靠地设计出速度更快、性能更好的继任者,其能力增长的步伐就可能脱离人类的规划周期。Anthropic 将此视为一个治理问题,同时也将其视为一个技术问题:自动化研发速度越快,监管机构、伦理学家和安全研究人员能够做出反应的时间就被压缩得越短。
Anthropic 呼吁全球暂停:为何验证是难题
Anthropic 并没有简单地说“停止”。该公司明确指出,任何暂停都必须以可验证性为前提:他们认为,有意义的减速需要多个资源充足的前沿实验室在多个国家达成一致,在相同的条件下停止研发,并且——至关重要的一点——需要能够验证彼此确实已经停止。文中指出,训练运行和模型开发比导弹发射井更容易隐藏;此处的探测难度比传统的军控体系要大得多。这正是 Anthropic 提议先建立验证系统,而不是单方面停下来并寄希望于竞争对手跟进的原因。
当被要求提供具体操作细节时,Anthropic 的公开材料给出了一个刻意保持开放的方案:暂停将是“减缓或暂时中止前沿人工智能发展”,直到对齐研究和社会结构能够跟上为止;具体的触发条件、仲裁者和退出条件将由他们希望召集的国际进程来确定。目前没有设定的持续时间。该公司将这一挑战比作历史上耗时数十年的验证制度,并警告称世界并没有这种奢侈。简而言之:提出暂停是为了给对齐研究和治理争取时间,而不是一个单一的、有日期限制的停滞令。
为什么这项提议对决策者来说像个谜题
协调一致、可验证的暂停在纸面上听起来很有吸引力,但对许多决策者来说在实践中是不可能的。违约的激励是巨大的:任何在其他方停止时继续训练的参与者,都将获得在战略、经济和军事上的领先优势。这正是 Anthropic 主张“先建立验证机制”的核心务实论点。这也解释了为什么一些观察家认为该计划既紧迫,又在没有主要国家(特别是美国和中国)大力支持的情况下无法实现。该公司的时机选择——在根据《负责任扩展政策 v3》(Responsible Scaling Policy v3)发布其自身的风险报告后不久发布这篇文章——是有意将这个问题推向政治舞台。
Anthropic 是谁,我们为何要听(或不听)它的?
Anthropic 是一家位于加利福尼亚州的人工智能公司,是 Claude 系列模型和 Claude Code 产品线的幕后推手;其公共形象建立在以安全为重点的言论和正式的《负责任扩展政策》之上。这种背景赋予了这篇文章可信度:Anthropic 展示了直接的内部测量数据、系统卡摘要以及第一份记录其部署的能力和缓解措施的公开风险报告。但这也是同一家在2026年修订其《负责任扩展政策》的公司,当时修订旨在区分公司的单方面行动与行业范围的要求——批评者认为这削弱了早期更严格的暂停承诺的含义。这段历史也是为什么一些评论员在 Anthropic 现在呼吁全球暂停时感到矛盾的原因:该公司一方面收回了单方面暂停的承诺,另一方面又主张世界应该建立协调一致的制动机制。读者应对这些新数据和政治背景保持健康的怀疑态度。
暂停能否降低人工智能失控的风险?
Anthropic 的回答很谨慎:是的,减速可以为对齐研究、改进评估以及让各机构建立裁决和验证机制争取时间。该公司将风险描述为双重的——既包括加速研发管线的系统,也包括原则上可能被赋予导致其自主行事目标的系统——并将暂停定位为将研发速度与失控的能力升级脱钩的一种方式。但这种缓解措施是有条件的:如果没有可靠的监测和国际协调,一些实验室遵守而另一些实验室忽视的暂停,可能会使世界变得更不安全,而非更安全。这正是 Anthropic 主张采取技术措施使违约行为可探测,并制定协议来定义触发条件及其仲裁者的原因。
如何实施和执行全球范围内的暂停——谁来监管?
Anthropic 指出了两种互补的方法。首先:建立可验证的技术控制和监测工具,以便能够探测大规模的训练运行或模型权重外泄。其次:建立一种政治架构——由政府、主要实验室、民间社会和独立审计机构代表组成的多利益相关方论坛——来设定触发条件并裁决争端。该公司援引了军控领域的类似做法,但也承认这种比较并不完美:过去条约的建立耗费了数十年的信任和工具化建设。任何可信的执行机制都需要强大的国家参与、独立的审计能力和公共透明度,以减少作弊的诱惑。如果没有这些,这种暂停很可能只会流于形式。 citeturn2view0turn6view0
决策者们已经在做什么,欧洲处于什么位置
在将人工智能治理的基本准则落到实处方面,欧洲比大多数地区走得更快:欧盟的《人工智能法案》(EU AI Act)以及旨在支持其执行的新咨询机构正准备作为监督的实际工具。这些机构可以构成 Anthropic 所呼吁的验证架构的一部分——例如,通过将市场准入与对任何达成一致的减速措施的合规记录挂钩——但《人工智能法案》的地理范围以及对国家安全的豁免意味着,布鲁塞尔本身无法解决国际协调问题。任何可信的暂停仍需美国和中国的支持。
这如何融入关于 Anthropic 更广泛的政治争论
这份报告发布之际,正值 Anthropic 与美国国防部就供应链指定和军事用途限制进行一场高调诉讼——这场争斗已经吸引了行业法庭之友和一位持怀疑态度的联邦法官。这种背景很重要,因为它突显了 Anthropic 面临的相互冲突的压力:既要捍卫商业未来和政府合同,又要公开主张对能力增长实施更严格的全球制约。这种紧张局势使得外界更难将这篇文章单纯解读为理想主义或纯粹的自私之举;这显然既是一种政治举措,也是一种技术恳求。
现状如何
Anthropic 为前沿实验室做了一件不同寻常的事:公布了显示其模型目前承担了多少日常工程工作的运营指标,并将这些数据与公共政策诉求相结合。该公司的核心观点很简洁:如果人工智能能够加速自身的进步,社会就应该在治理和对齐研究赶不上这辆“失控列车”之前,拥有一套程序来减缓其速度。最困难的部分——建立可信、可执行的国际验证机制——是大多数决策者和技术专家现在将尝试去拆解的难题。这种拆解将是技术性、地缘政治性和混乱的;这也将是“谁能在谈判桌上占有一席之地”这一问题演变为真正的政策问题的关键所在。欧洲可以提供规则和审查工具,但它无法替代美中两国在该问题上的政治缓和。
这是一种进步。那种无法塞进演示文稿里的进步。
来源
- Anthropic Institute — “当人工智能实现自我构建”(公司文章及内部数据)
- Anthropic — 经修订的风险报告(《负责任扩展政策 v3.0》执行材料,2026年2月)
- Anthropic — 《负责任扩展政策 v3.0》及相关系统卡
- 欧盟委员会 / 欧盟《人工智能法案》执行文件及咨询机构
Comments
No comments yet. Be the first!