世界动作模型 vs VLA:预测物理规律

Breaking News 科技
Close-up of a sleek robotic hand reaching toward a floating, rippling sphere of light against a dark background.
4K Quality
虽然目前的视觉-语言-动作(VLA)模型在理解指令方面表现出色,但在应对新环境的不可预测物理特性时往往力不从心。DreamZero 引入了向世界动作模型(WAM)的转变,利用视频扩散技术帮助机器人实时预测其行为产生的视觉和物理后果。

视频扩散技术与机器人控制的**融合**,在人工智能如何与物理世界互动方面取得了重大突破。虽然传统的**视觉-语言-动作 (VLA)** 模型擅长遵循语言指令,但在面对陌生环境中不可预测的物理特性时,它们往往会失效。为了解决这一问题,研究人员 **Kyungmin Lee**、**Jing Wang** 和 **Jan Kautz** 推出了 **DreamZero**,这是一种**世界动作模型 (WAM)**,允许机器人预测其动作的视觉和物理后果。通过将视频视为环境演变的密集表示,这种新架构赋予了机器人一种物理直觉,使其能够以史无前例的准确度适应从未见过的场景。

物理空间中语义 AI 的局限性

现代机器人技术通常依赖于**语义泛化**,这虽然能帮助机器人识别物体,但在新环境中却无法转化为成功的物理运动。**视觉-语言-动作 (VLA)** 模型通常擅长理解物体“是什么”,但在光照、方向或环境动态发生变化时,却难以处理“如何”操纵物体。这种差距的存在是因为这些模型缺乏一个**世界模型 (World Model)**——一个能够理解电机指令与其物理结果之间因果关系的内部模拟。

研究表明,当机器人进入新环境时,由于缺乏物理基础,会导致**自回归误差**不断累积。任务初始阶段的微小错误会导致执行过程彻底崩溃,因为模型无法“预见”它正在创造的世界的未来状态。为了解决这个问题,**DreamZero** 将范式从简单的动作预测转变为对**物理动态**的全面建模,确保机器人在任务的每一毫秒内都能理解其工作空间的视觉和触觉演变。

世界动作模型与视觉-语言-动作 (VLA) 模型有何不同?

**世界动作模型 (WAM)**(如 **DreamZero**)与**视觉-语言-动作 (VLA)** 模型不同,它集成了预测未来视觉状态的世界建模。虽然 VLA 将输入直接映射到动作,但 WAM 实现了视频生成与动作预测的物理**融合**。这使得模型能够内化潜在的物理规律,并在执行动作之前预测其行为的视觉后果。

与通常在狭窄、重复的演示中训练的标准 VLA 不同,**DreamZero** 利用了一个**140亿参数的自回归视频扩散模型**。这一骨干网络使机器人能够在执行任务时“想象”世界应该是什么样子。通过对视频和动作进行联合建模,**世界动作模型**可以从异构数据源中学习多种技能。在真实世界的机器人实验中,这种方法相比于目前最先进的 VLA,在对新任务和新环境的泛化能力上提升了 **2 倍**。

为什么传统 AI 模型难以处理未见的物理运动?

传统人工智能模型在处理未见的物理运动时表现挣扎,因为它们缺乏对**环境动态**和物理规律的内在表示。这些模型通常依赖于直接的观察到动作映射,而没有考虑动作与其结果之间的**因果关系**。这种预测性**世界模型**的缺失,导致模型在遇到新场景时表现不佳且误差扩散。

在实践中,这意味着传统机器人可能知道如何在实验室环境中拿起蓝色方块,但如果在一个光影不同的房间里,方块被换成了一个稍重的红色球体,模型的动作序列就会失效。这种失败发生的原因是模型对**环境密度**或其抓取器如何与不同表面互动没有“直觉”。**DreamZero** 通过利用视频扩散骨干网络作为基础克服了这一点,将视觉世界视为物理事件的可预测流,而不是一系列静态、不连贯的图像。

DreamZero:世界动作模型的架构

**DreamZero** 的核心架构建立在预训练的视频扩散骨干网络之上,该网络充当**生成式世界模拟器**。该模型不仅预测下一个机器人关节的运动;它还会预测机器人摄像头接下来将看到的几帧画面。通过将这些视觉预测与**底层动作标记**对齐,模型确保其运动在物理上与其观察到的世界法则保持一致。

  • 联合建模: 同时预测视频帧和机器人动作,使物理理解与电机执行保持同步。
  • 密集表示: 使用视频作为主要数据源,捕捉摩擦力、重力和物体恒存性等微妙的物理细微差别。
  • 异构数据: 从广泛的机器人数据和人类视频中学习,而不是依赖数千次相同的实验室演示。

DreamZero 能通过观察人类学习执行任务吗?

**DreamZero** 可以通过其强大的**跨具身能力**,通过观看人类视频演示来学习复杂任务。通过将人类运动分析为密集的视频表示,该模型实现了以人为中心的视觉数据与机器人控制的**融合**。这使得系统只需 10 到 20 分钟的演示数据,即可提取物理运动模式并将其应用于自己的机器人硬件。

这种能力被称为**跨具身迁移**,代表了迈向**通用机器人**的重大飞跃。在测试中,仅通过人类的视频演示,在未见任务上的表现就实现了超过 **42%** 的相对提升。这表明该模型不仅是在模仿像素,而是在理解所执行任务的**基础物理学**。无论演示者是人类的手还是不同的机器人手臂,**DreamZero** 都能识别目标以及实现目标所需的物理步骤。

实时控制与系统优化

实时运行一个 **140亿参数的模型** 是一个重大的技术挑战,**DreamZero** 通过广泛的模型和系统优化克服了这一挑战。传统的大规模模型通常对于机器人所需的**毫秒级响应**来说太慢了。然而,研究人员实现了 **7Hz 的闭环控制**,这足以让机器人对发生的动态环境变化做出反应。

这些优化弥合了高层推理(例如“做三明治”)与执行任务所需的细粒度电机指令之间的差距。通过高效运行**自回归视频扩散**模型,**DreamZero** 保持了一个恒定的反馈循环。如果物体滑落或环境在动作中途发生变化,模型会同时更新其视觉预测和动作计划,以以前的大规模模型无法做到的方式保持稳定性。

零样本机器人泛化的未来

也许这项研究最令人惊讶的发现是 **DreamZero** 进行**少样本具身适配** 的能力。该模型只需 **30 分钟的“玩耍”数据**,即可将其学到的技能迁移到全新的机器人硬件上。这意味着,在一种工业机械臂上训练的模型可以快速适配到不同的型号,甚至是人形机器人,而不会失去其**零样本泛化**能力。

随着机器人领域向更复杂和无脚本的环境发展,生成式视频模型与动作预测的**融合**可能会成为标准。**NVIDIA Research** 及其作者的工作证明,**世界动作模型**提供了人工智能一直缺失的必要“物理常识”。这项技术的未来迭代可能会产生出这样的机器人:它们可以进入任何家庭或工厂,并在观察几分钟后就开始安全有效地执行任务。

James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Readers Questions Answered

Q 世界动作模型与视觉-语言-动作 (VLA) 模型有何不同?
A 世界动作模型(如 DreamZero 中的模型)集成了能够预测未来图像并学习潜在物理规律的世界模型,这与视觉-语言-动作 (VLA) 模型不同,后者直接将视觉和语言输入映射为机器人动作,而无需显式的世界模拟。VLA 专注于根据观察和指令进行端到端的动作生成,而像 WorldVLA 这样的世界动作模型则将动作预测与世界建模相结合,以实现相互增强和更好的物理直觉。这种统一解决了 VLA 在泛化到未见动力学方面的局限性。
Q DreamZero 可以通过观察人类来学习执行任务吗?
A 是的,DreamZero 可以通过观察人类来学习任务,因为其世界动作模型是在包含人类远程操作数据的演示上训练的,从而能够模仿物理运动。与 VLA 类似,它利用人类表现中的视觉观察来生成相应的动作,并通过世界模型对物理结果的预测来增强表现。
Q 为什么传统 AI 模型在处理未见过的物理运动时会感到困难?
A 传统 AI 模型在处理未见过的物理运动时感到困难,是因为自回归动作预测中的泛化能力有限,误差会从早期动作传播到后期动作,且缺乏对底层物理规律的理解。它们依赖于从观察到动作的直接映射,而没有世界模型来模拟和预测环境动态,导致在面对新场景时表现不佳。

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!