Spirit AI 在 RoboArena 中击败英伟达——意外的优势并非来自算力

机器人技术
Spirit AI beat Nvidia on RoboArena — but the surprise advantage wasn’t compute
本周,Spirit AI 的 Spirit v1.6 荣登 RoboArena 排行榜榜首,将英伟达的 Cosmos3 挤下第一名的宝座。这一结果揭示了中国的数据、政策和产业策略是如何重塑中美科技战中机器人技术领域的竞争格局的。

美中科技战:中国的 Spirit v1.6 与 RoboArena 的冷门

在英伟达(Nvidia)发布 Cosmos 3 的两天后,杭州一家初创公司公布的分数让董事会监控器上的数值瞬间跳动。Spirit AI 的 Spirit v1.6 在 RoboArena 基准测试中取得了 1,924 分,险胜英伟达 Cosmos3-Nano-Policy 的 1,881 分,同时该公司还宣布完成了 15 亿元人民币(约 2.22 亿美元)的融资。从冷冰冰的数字来看,头条新闻很简单;但从实际层面来看,这次交锋迫使人们重新思考:在当前的美中科技战(中国阶段),机器人技术的优势到底掌握在谁手中。

RoboArena 之所以重要,是因为它测试了通用机器人策略如何将感知和规划转化为在随机、对抗性环境下的真实世界运动。该基准测试拥有深厚的学术背景,斯坦福大学(Stanford)和加州大学伯克利分校(UC Berkeley)均在其联合开发者之列。然而,单次的排行榜快照并不能揭示其背后的供应链、监管和数据动态,而这些幕后因素正是中国目前最强劲的地方。

为什么基准测试获胜既是技术事件,也是政治事件

像 RoboArena 这样的基准测试对于比较策略架构很有用,但它们并非决定性因素。排行榜奖励那些能在许多模拟任务中将观察结果转化为稳健行动,且使用严格抗过拟合措施的模型。尽管如此,性能提升可以来自多种途径:模型架构、更好的合成或真实世界训练数据、巧妙的领域随机化,或是为了从有限算力中榨取更多性能而进行的针对性工程。Spirit 的崛起看起来像是激进的数据收集、务实的模型工程和融资加速的结合,而不仅仅是获得了顶级 GPU。

这种组合本身就带有政治色彩。英伟达协助设计了 RoboArena,随后将 Cosmos 3 送上了擂台。Spirit 的胜利标志着具身智能(embodied-AI)竞赛已经超越了单纯的芯片算力,进入了一个数据规模、任务覆盖范围和部署流水线同等重要的竞技场。对于地缘政治观察家来说,这一点意义重大:它改变了美中竞争中杠杆所在的位置。

美中科技战:中国的结构性优势——数据、工厂和国家资本

中国在机器人人工智能方面带来的最明显优势是数据。行业内部人士和高管多次表示,“数据是物理 AI 面临的最大难题”;英伟达首席执行官在近期的公告中也重申了这一点。在中国,市级和省级政府一直在悄悄支持集中式的机器人数据收集(有时被称为“数据工厂”),这些工厂能够以工业级规模生产用于训练操作、导航和人机交互任务的精选标注数据流。

中国如何在机器人 AI 硬件和软件方面与英伟达竞争

中国对芯片出口管制的反应是双管齐下的。华为和百度等公司正在出货能力日益增强的国产加速器(华为的昇腾系列和百度的 M100 芯片正是为了减少对外国 GPU 的依赖而专门设计的)。这并不意味着目前已与英伟达的顶级数据中心 GPU 旗鼓相当,但对于许多通常优先考虑延迟、确定性和能效而非纯吞吐量的机器人工作负载而言,差距正在缩小。

对于机器人开发者来说,新型国产处理器很有吸引力:它们成本更低,与本地云栈集成度高,并且可以与大量本地可用的数据集结合使用。它们还附带了不同的软件生态系统和工具链,这增加了习惯于 CUDA 和英伟达 SDK 的团队的迁移和验证成本。实际上,许多机器人开发者将在混合世界中运作:用英伟达进行繁重的离线训练,用本地加速器进行边缘推理和成本与延迟最关键的闭环控制。

这对英伟达的路线图和机器人客户意味着什么

英伟达的反应是可以预见的:加倍投入合作伙伴关系和为具身智能优化的产品线。Cosmos 3 的设计正是基于这种转型,近期与宇树科技(Unitree)和 Sharpa 的合作声明标志着英伟达正努力将开发者锁定在涵盖模拟器、模型和硬件的生态系统中。但类似这样的排行榜失利将促使英伟达在追求原始 FLOPs(每秒浮点运算次数)的同时,强调软件的稳健性和开发者的易用性。

对于欧洲和德国企业来说,这种选择不仅是技术的,更是战略性的。《欧盟芯片法案》(EU Chips Act)和德国工业政策旨在确保获得前沿工具,同时防止对单一供应商的过度依赖。这意味着采购决策——无论是标准化采用英伟达,还是出于成本原因采用国产加速器,亦或是设计混合流水线——都将日益趋于政治化和技术化。

哪些中国公司正在塑造下一代机器人 AI 加速器?

除了头条新闻中的主角外,中国的生态系统十分广泛。华为等家喻户晓的企业正在开发高端加速器;百度既在制造芯片,也将其与自身的云和自动驾驶架构进行集成。初创公司和国家实验室则填补了细分领域:一些专注于机器人肢体的低功耗推理,另一些则致力于高密度 3D 点云的加速感知网络。最终结果是一个分层的供应链,廉价的本地硅片加上丰富的数据可以以更低的价位生产出具有竞争力的机器人技术栈。

这种竞争正是前线团队应该了解的情况:中国芯片目前还无法完全替代英伟达的所有工作负载,但对于定义许多具身智能系统的感知、控制和仿真组合而言,它们通常已经“足够好”,而且在大规模应用下成本要低得多。

如何评判机器人基准测试结果(以及何时该保持怀疑)

排行榜激励了优化。优秀的团队构建能够泛化的模型;聪明的团队也会为测试进行针对性调试。RoboArena 的设计者试图使基准测试变得稳健——随机任务、对抗场景、抗过拟合措施——然而没有任何基准测试能完全复制部署过程中复杂的成本、安全和监管挑战。Spirit 的胜利是一个重要的技术指标,但在工厂、医院或公共街道的部署还需要软件验证、合规性认证和供应链保证,这是单靠一个分数无法体现的。

这一点对于欧盟采购官员和德国工业机器人集成商尤为重要。顶级的基准测试分数无法替代安全认证、长期维护计划或安全的硬件供应链。

给在国产加速器与英伟达之间做选择的机器人开发者的实用建议

首先:盘点你的风险。如果你的产品必须满足西方国防或出口管制约束,那么英伟达 GPU 和台积电(TSMC)代工的芯片可能是必须的。其次:剖析你的工作负载。如果你的控制回路需要毫秒级的确定性和低功耗,本地加速器可能更便宜且完全足够。第三:规划可移植性。使用抽象层、容器化推理栈和硬件无关的机器学习运维(ML ops),以便在供应或政策发生变化时可以重新定向模型。

最后,考虑你的训练数据来源。如果你依赖托管在中国的大型专有数据集,或者使用使用中国数据的第三方服务,数据访问和本地化的地缘政治可能会影响你未来可重复地训练和维护模型的能力。

为什么欧洲应该关心(以及它还能发挥什么影响)

欧洲供应着全球半导体和制造拼图中至关重要的部分——从精密工具到专业传感器——德国工程技术仍然处于高价值机器人的核心地位。但与中国的国家主导模式相比,欧洲的政策反应一直很谨慎。《欧盟芯片法案》为布鲁塞尔提供了补贴产能和弹性的工具,但它无法立即创造出中国目前所利用的数据流水线、风投支持的快速迭代周期或监管速度。

如果欧洲想要在机器人领域拥有真正的工业主权,决策者需要将硬件补贴与对共享真实世界数据收集的投资、允许测试具身系统的监管沙箱以及更清晰的跨境供应韧性采购策略相匹配。否则,欧洲将仍然拥有工程师,但会把高利润的用例输给更廉价、数据质量更好的现有竞争对手。

Spirit 的 RoboArena 胜利之所以重要,是因为它重塑了竞争格局。美中科技战(中国阶段)不仅关乎谁设计了下一个大语言模型或谁控制了晶圆厂;它还关乎谁拥有了教机器人在现实世界中运动和工作的复杂、昂贵的商业模式。这种商业模式对数据、部署流水线和耐心国家资本的奖励,丝毫不亚于对算力的奖励。

简而言之:Spirit 并非仅仅靠一个神奇的算法就“击败”了英伟达。它依靠的是资金、数据以及一个将机器人变成训练平台的国家生态系统。英伟达仍然销售支撑大型训练任务的芯片,但应用机器人的战场比 GPU 要广阔得多——这才是值得关注的变化。

欧洲拥有工程师,它只需要找到一个愿意买单的人。

来源

  • RoboArena(与斯坦福大学和加州大学伯克利分校联合开发的基准测试)
  • 北京大学(人工智能研究院及相关研究)
  • 中华人民共和国工业和信息化部(关于低空经济和工业人工智能的政策规划)
Mattias Risberg

Mattias Risberg

Cologne-based science & technology reporter tracking semiconductors, space policy and data-driven investigations.

University of Cologne (Universität zu Köln) • Cologne, Germany

Readers

Readers Questions Answered

Q Spirit v1.6 和 Nvidia 的 Cosmos3-Nano-Policy 在 RoboArena 上取得了什么分数?Spirit 在公布结果的同时宣布了什么融资消息?
A Spirit v1.6 在 RoboArena 上获得了 1,924 分,以微弱优势领先于 Cosmos3-Nano-Policy(1,881 分)。Spirit 同时宣布完成了一轮价值 15 亿元人民币(约合 2.22 亿美元)的融资,显示出在排行榜取得突破的同时,公司也获得了大规模的资金支持。
Q 为什么 RoboArena 在美中科技竞争中被认为具有政治意义?
A RoboArena 测试的是机器人策略如何将观测结果转化为跨随机对抗任务的稳健行动,这突显了数据规模和部署流程的重要性,而非单纯依赖原始算力。文章指出,该结果反映了供应链和数据动态等幕后因素,而这些因素正塑造着中国的竞争优势。
Q 根据文章,中国在机器人人工智能方面具备哪些与数据相关的优势?
A 文章指出,数据是中国最明显的优势。政府在背后支持集中式的机器人数据收集,即“数据工厂”,这些工厂为训练操作、导航和人机交互任务提供了工业规模的精选标注数据流。此外,中国还通过自主研发的加速器来减少对外国 GPU 的依赖。
Q Nvidia 如何应对中国加速器的崛起和 RoboArena 的测评结果?
A Nvidia 正在加倍投入 embodied intelligence(具身智能)领域的合作伙伴关系和产品线。Cosmos 3 已与宇树科技(Unitree)和 Sharpa 等公司展开合作,旨在将开发者锁定在涵盖模拟器、模型和硬件的生态系统中;同时,该公司在追求原始浮点运算能力(FLOPs)的同时,也更加强调软件稳健性和开发人员的操作体验。
Q 哪些机构参与了 RoboArena 的设计?
A RoboArena 的构建得到了学术界的重大支持,斯坦福大学和加州大学伯克利分校均被列为共同开发者。这标志着顶尖高校正携手合作,共同制定一个旨在测试随机对抗环境下感知、规划和行动能力的基准测试。

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!