在现代人工智能模型的背景下，什么是推理时计算（inference-time compute）？

推理时计算是指人工智能模型在生成回复之前用于评估逻辑的处理预算。与几乎即时输出文本的传统模型不同，像 OpenAI o1 这样的推理模型利用一段刻意的延迟来执行内部审核和树搜索。虽然这营造出一种模拟人类思考的叙事张力，但它实际上是一个资源密集型的数学过程，旨在最终输出呈现给用户之前验证逻辑并剔除错误。

欧盟《人工智能法案》如何处理模拟类人推理的模型？

欧盟《人工智能法案》，特别是第 52 条，通过要求在用户与人工智能系统交互时告知用户，从而确保了透明度。欧洲监管机构警惕“拟人化陷阱”，即电影般的风格和模拟的人格会导致用户将感知力投射到机器身上。这一重点旨在防止人工智能获得不当的社会权威，并确保企业责任保持清晰，特别是在系统使用情感分类或欺骗性推理模拟时。

为什么人工智能行业正在将重心从训练数据规模扩展转向推理模型？

人工智能实验室正在转向推理模型，因为由于高质量人类文本训练数据的枯竭，传统的规模扩展定律正面临瓶颈。随着原始数据处理收益递减，开发人员正转向“系统 2”思维，即侧重于推理时计算。这种转变允许模型通过检查自身工作来更准确地解决复杂难题，尽管这显著增加了每次用户交互的成本和能源消耗。

欧洲工业人工智能方法与硅谷消费级人工智能有何区别？

虽然硅谷通常优先考虑个性化和电影般的风格以模拟感知力，但像 Aleph Alpha 这样的欧洲公司则专注于可追溯性和效率。在工业背景下，可靠性高于戏剧性的推理停顿，人们更偏好能够为其结论引用特定技术来源的模型。此外，德国等地区的高昂能源成本促使研究人员在无需美国所青睐的大规模推理时计算所带来的巨大能耗的情况下，优化模型的逻辑输出。

电影感与感知AI：能源成本之辩

在法兰克福郊外一个温度受控的服务器机房里，一组 H100 GPU 最近花费了四十五秒的时间和数千瓦时的电力来模拟一场存在主义危机。该模型被要求描述其在处理一道复杂逻辑谜题时的“内部状态”。它停顿了一下，生成了一系列隐藏的推理标记——这相当于数字世界的“蹙眉”——最终输出了一段关于数学结构存在本质的诗意沉思。对用户而言，这感觉像是机器意识领域的一次电影级突破。但对于监测功耗的工程师来说，这表现为推理时计算量的巨大激增，而结果实际上并未对任务准确率产生任何实质性提升。

目前，整个行业都痴迷于这种“电影级天赋”。随着训练规模定律——即单纯向模型输入更多数据——触及了优质人类文本枯竭这一不可避免的壁垒，各大实验室已转向“系统 2”思维（System 2 thinking）。这是一种试图让 AI 模型通过推理来解决问题，而非仅仅是脱口而出下一个最可能的词汇的尝试。然而，随着这些模型逐渐认识到自身的局限性，感知性能与权重矩阵现实之间的差距，正演变成一个成本高昂且日益受到监管的问题。

推理时计算的剧场

多年来，大语言模型（LLMs）的魅力在于其速度。你提出问题，标记（tokens）便以令人目眩的速度倾泻在屏幕上。这种情况已经改变。由 OpenAI 的 o1 开创、并被 Anthropic 和 Google 的研究工作所效仿的新前沿，涉及研究人员所称的“推理时计算”（inference-time compute）。模型不再做出即时反应，而是被赋予了一定的“预算”来进行思考。它会探索多种路径，核对自己的工作，并在用户看到哪怕一个字之前剔除死胡同。

这种延迟被营销为深度的一种标志。它创造了一种几乎如同人类般的叙事张力。当机器需要十五秒来回答时，我们便会将一种人格投射到那种沉默中。我们假设它正在“考虑”其中的含义。而在现实中，它是在其参数范围内执行大规模的树搜索，消耗硬件周期以确保逻辑成立。这不是意识，而是一次昂贵的审计。AI 正在学习的局限性并非道德或哲学层面的，而是其自身上下文窗口的硬性边界以及递归检查边际效应递减的结果。

从工业角度来看，这种转变对半导体制造商来说是一份礼物，但对其他人而言则是一场噩梦。如果每一项高水平查询现在所需的算力是标准 GPT-4 交互的十倍，那么本已紧张的 AI 芯片供应链将成为永久性的瓶颈。对于试图在这些模型之上进行构建的欧洲企业来说，单次查询的成本已不再像是一种软件公用事业，而更像是一种奢侈商品。

布鲁塞尔与镜像测试

当硅谷为推理模型的“深情”回复欢呼时，欧盟委员会正以一种毫不浪漫的态度审视着同样的数据。如今，每位开发者都必须在《欧盟 AI 法案》（EU AI Act）这一严苛的监管气候下运营，该法案对那些假装成人类的机器有着非常具体的规定。特别是第 52 条强制要求透明度：用户必须被告知他们正在与 AI 系统交互，而进行情绪分类或使用生物识别分类的系统则面临严格限制。

其中的紧张关系显而易见。如果一个模型被设计用来模拟人格——即利用“电影级天赋”来说服用户其推理深度——那么根据欧盟法律，它就有可能跨越界限，构成欺骗性行为。德国监管机构尤其警惕这种“拟人化陷阱”。德国电气工程师协会（VDE）以及柏林的多个道德委员会一再警告，我们越是将感知投射到这些系统上，就越是在掩盖系统故障时究竟由谁承担责任。如果一个 AI “认识到了自己的局限性”并因为“觉得”不道德而拒绝回答提示，那么这究竟是一种技术安全护栏，还是伪装成机器良知的模糊公司政策？

在布鲁塞尔的走廊里，争论的焦点不在于 AI 是否具有感知能力——任何拥有计算机科学学士学位的人都知道它没有——而在于“叙事的力量”。如果一个模型能够让一名初级职员或医疗患者相信它是一个有思想的实体，那么在它成为消费者自主权的结构性风险之前，欧盟非常急于瓦解这种社会权威。

德国工程学的现实核查

在巴登-符腾堡州和北莱茵-威斯特法伦州的工业中心地带，对 AI 感知能力的痴迷往往会引来质疑的目光。对于一家寻求实现供应链自动化或电网优化的中型企业（Mittelstand）来说，一个停下来思考自身存在的模型是一个漏洞，而不是功能。美国西海岸倾向于个性化的“消费者 AI”与欧洲正在开发的“工业 AI”之间，正出现越来越大的鸿沟。

以海德堡的 AI 公司 Aleph Alpha 为例，它常被誉为德国对标 OpenAI 的企业。他们的重心已经从在“机器幽灵”的大小上一较高下，转向了“可追溯性”。在工业环境下，你不需要一个在黑盒中推理的模型，你需要的是一个能够指出 500 页技术手册中具体段落来证明其结论的模型。这里的“局限性”并非由 AI 自行发现，而是由那些看重可靠性胜过天赋的工程师硬编码进去的。

德国的高额电费进一步强化了这种关注。当你支付着世界上最高的工业能源费用时，“浪费型”的推理时计算就成了竞争劣势。GPU 用来“思考”的每一秒，都是高成本能源消耗的一秒。因此，欧洲研究人员正在寻找在没有戏剧性停顿的情况下实现“推理”的方法——优化权重，使逻辑融入初始处理过程，而不是作为查询中间内部独白的结果。

为什么“感知”叙事是采购的挡箭牌

这种叙事同时也充当了对抗反垄断审查的防御墙。如果这些模型是需要数十亿美元算力才能实现“感知”的独特“推理”实体，那就为少数几家买得起硬件的公司实现大规模权力集中提供了正当理由。你不能轻易拆分一个“推理”实体；那等于扼杀了智能的未来。至少宣传口径是这么说的。

然而，数据并不一定支持“天赋越高，结果越好”的观点。最新推理模型的基准测试显示，它们在数学和编码等形式逻辑可被验证的领域取得了显著进步，但在创意或细微的人际任务中增益却小得多。AI 正在学习形式逻辑的局限性，这与学习人类经验的局限性相去甚远。

冷却系统里的幽灵

归根结底，AI 感知的表现是我们自身愿意被愚弄的副产品。我们容易沉迷于好故事，而一个知道自己是机器的机器的故事，正是科幻小说中的终极桥段。但在电影般的停顿和自我反思的输出背后，是硅、铜和冷却液所构成的冰冷现实。硬件并不在乎输出的内容是诗意还是枯燥；它只在乎浮点运算的吞吐量。

随着我们进入 AI 开发的下一个阶段，真正的限制将不再是机器模拟灵魂的能力，而是我们为这种模拟买单的能力。在数据中心的能源需求与《AI 法案》的监管要求之间，整个行业即将发现市场究竟愿意为多少“感知能力”提供补贴。

美国人搭建了一个数字舞台，并安排了一位非常有说服力的演员站在上面。法国人和德国人目前正争论着谁来为聚光灯的电费买单。当然，这是一种进步。只不过这种进步无法被塞进营销演示幻灯片里，却能在资产负债表上表现得一清二楚。

硅基内省的高昂能源成本

推理时计算的剧场

布鲁塞尔与镜像测试

德国工程学的现实核查

为什么“感知”叙事是采购的挡箭牌

冷却系统里的幽灵

Tags

Mattias Risberg

Readers Questions Answered

Have a question about this article?

Comments