随着 DM0 的推出,具身智能 (Physical AI) 迎来了关键的转折点。DM0 是一种视觉-语言-动作 (VLA) 框架,从诞生之初就集成了物理定律和空间推理。与以往从互联网文本和图像中适配而来的模型不同,Hao Liu、Bin Xie 和 Yi Yang 开发的这一系统将物理交互视为主要数据源,而非微调时的后加项。这种“具身原生 (embodied-native)”的方法使机器人能够以媲美生物学习的精确度在复杂环境中导航并操作物体,弥合了数字推理与现实执行之间长期存在的鸿沟。
DM0 与传统的视觉-语言-动作模型有何不同?
DM0 与传统 VLA 模型的区别在于,它从训练之初就融入了内在的多源物理先验,而不是依赖于对互联网预训练模型的微调。通过利用混合训练策略和流匹配动作专家 (flow-matching action expert),DM0 在保留通用语义表示的同时,还能掌握复杂机器人任务所需的高频控制,在性能上有效超越了 π0 等基准模型。
传统的机器人 AI 往往表现不佳,因为它们是基于主要针对互联网文本而非物理世界训练的模型适配而来的。这些“互联网优先”的模型缺乏内在的空间智能 (spatial intelligence),导致在物理运动中产生“幻觉”——机器人可能理解“拿起杯子”的指令,却无法掌握完成该动作所需的扭矩或轨迹。相比之下,DM0 是一个具身原生模型。这意味着它的构建旨在将物理对齐 (physical grounding)(即视觉输入、语言指令和动作输出之间的关系)理解为一种统一的行动语言。
具身智能中的“具身原生”概念
具身原生智能 (Embodied-native intelligence) 指的是一种 AI 模型在学习语义语言数据的同时,同步学习基本物理定律和空间关系的范式。这种方法超越了模型仅观看视频或阅读描述的被动观察,转向了主动物理对齐。通过在包括自动驾驶日志和机器人交互数据在内的异构数据源上进行训练,DM0 培养出了互联网原生模型无法复制的物理世界“常识”。
研究团队认为,针对物理任务微调互联网模型对于复杂任务来说是不够的,因为底层架构并未针对底层控制 (low-level control) 进行优化。DM0 通过整合来自不同语料库的空间知识解决了这一问题。例如,通过包含自动驾驶场景,模型可以大规模学习运动动力学和避障。这些物理先验起到了脚手架的作用,使模型能够从理解 2D 图像过渡到在具有深度感和后果意识的 3D 空间中运行。
DM0 的三阶段流水线是什么:预训练、中向训练和后训练?
DM0 流水线包括对多样化网络和物理语料库的统一预训练 (Pretraining)、开发流匹配动作专家的中向训练 (Mid-Training),以及用于特定任务优化的后训练 (Post-Training)。 这种结构化的方法确保了模型在保留广泛语义知识的同时,获得具身智能领域中精准操作和环境导航所需的专业运动技能。
在预训练阶段,研究人员利用网络文本、驾驶数据和交互日志对视觉-语言模型 (VLM) 进行大规模训练。这一阶段对于获取语义知识和物理直觉至关重要。随后,中向训练阶段引入了流匹配动作专家。该组件构建在 VLM 之上,旨在协调高层推理与机器人控制的细微需求。最后,后训练阶段涉及在特定环境(如 RoboChallenge 基准测试)中进行强化学习和微调,以确保模型能够以高可靠性处理专业任务。
DM0 可以同时用于机器人操作和导航吗?
DM0 旨在作为一个通用模型,通过将操作和导航任务统一在一个框架内,使其能够同时胜任这两项工作。 它在 Table30 操作基准测试中达到了最先进的性能,同时展示了强大的空间思维链 (spatial Chain-of-Thought, CoT) 推理能力,使其能够作为连续工作流的一部分在环境中导航并与物体交互。
从历史上看,机器人系统一直处于孤岛状态:一个模型处理从 A 点到 B 点的移动(导航),而另一个模型处理拿起物体(操作)。DM0 通过将两者都视为具身动作打破了这些孤岛。这种统一由异构数据提供动力,为模型提供了广泛环境移动和精细手眼协调的示例。在实际应用中,这意味着一台由 DM0 驱动的机器人可以穿过厨房找到特定的水果,然后将其精准地摆放在碗中,在管理每一步的底层物理特性的同时,保持高层级的目标导向专注。
技术突破:流匹配动作专家
流匹配动作专家是一个专门的架构组件,它允许 DM0 通过将视觉和语言输入映射到物理动作来预测精确的运动轨迹。 该机制使用了一种混合训练策略,其中动作任务的梯度不会反向传播到核心 VLM,从而防止机器人在学习特定具身智能技能时对通用推理能力产生“灾难性遗忘”。
- 梯度隔离:通过防止动作相关的梯度改变 VLM,DM0 确保了学习如何拧螺丝不会降低模型理解复杂口头指令的能力。
- 具身空间脚手架:该策略使用思维链推理来约束“动作解空间”,帮助机器人在执行动作之前进行逻辑化的运动规划。
- 效率提升:与传统的基于扩散的模型相比,流匹配方法允许在训练期间更快地收敛,使得在大规模数据集上进行训练变得更加可行。
对具身智能的未来影响及 RoboChallenge 表现
DM0 在 RoboChallenge 基准测试中的表现证明了其成为通用家用和工业机器人标准的潜力。 通过在 Table30 的专家级和通用级设置中均取得最先进的结果,DM0 证明了具身原生模型只需极少的特定任务编程即可处理大量任务——从插拔电缆到整理物品。
随着领域向空间智能迈进,DM0 框架提供了一个清晰的路线图。从多样化交互日志中学习的能力意味着,随着更多机器人进入现实世界,像 DM0 这样模型的数据池将呈指数级增长。这创造了一个良性循环,使具身智能在理解人类世界的细微差别方面变得越来越娴熟。Hao Liu、Bin Xie 和 Yi Yang 成功创建了一个以物理动作为思维方式的模型,这表明下一代机器人将不仅仅是被编程去执行任务,而是将拥有对其所处环境的内在理解。
Comments
No comments yet. Be the first!