DM0、身体化トレーニングを通じて「フィジカルAI」を再定義

Breaking News Technology
Close-up of a sleek robotic hand with intricate sensors reaching toward a metallic object in a dramatic high-tech setting.
4K Quality
従来のロボット用AIは、物理世界ではなく主にインターネット上のテキストで学習されたモデルを転用していたため、実社会での運用に課題がありました。新たなフレームワーク「DM0」は、開発の初期段階から物理的な事前知識(フィジカル・プライア)に基づいて視覚・言語・行動(VLA)モデルをトレーニングすることでこの傾向を覆し、ロボットによるナビゲーションと推論の同時実行を可能にしました。

物理的AI(Physical AI)は、物理法則と空間推論を設計当初から組み込んだ視覚・言語・行動(VLA)フレームワーク「DM0」の登場により、極めて重要な転換点を迎えました。インターネット上のテキストや画像から適応させた従来のモデルとは異なり、Hao LiuBin XieYi Yangらは、物理的な相互作用をファインチューニングの付け足しとしてではなく、主要なデータソースとして扱うシステムを開発しました。この「エンボディド・ネイティブ(身体性ネイティブ)」アプローチにより、ロボットは複雑な環境をナビゲートし、生物学的な学習に近い精度で物体を操作することが可能になり、デジタルな推論と現実世界での実行の間に長年存在していた隔たりを埋めることができます。

DM0は従来の視覚・言語・行動(VLA)モデルとどう違うのか?

DM0は、インターネットで事前学習されたモデルのファインチューニングに頼るのではなく、トレーニングの開始時から本質的なマルチソースの物理的知見(フィジカル・プライア)を取り入れている点で、従来のVLAモデルとは異なります。 ハイブリッド学習戦略フローマッチング・アクション・エキスパートを活用することで、DM0は汎用的な意味表現を維持しながら、複雑なロボットタスクに不可欠な高頻度制御を同時に習得し、π0などのベンチマークを効果的に上回る性能を発揮します。

従来のロボットAIは、物理世界ではなく主にインターネット上のテキストで学習されたモデルを適応させているため、苦戦することがよくありました。これらの「インターネット・ファースト」モデルは、本質的な空間知能を欠いており、ロボットが「カップを持ち上げる」という指令は理解できても、それを実行するために必要なトルクや軌道を把握できず、物理的な動きにおいて「ハルシネーション(幻覚)」を引き起こす原因となっていました。対照的に、DM0はエンボディド・ネイティブなモデルです。つまり、視覚入力、言語指令、そしてモーター出力の関係である物理的グラウンディングを、単一の統合された行動言語として理解するように構築されています。

物理的AIにおけるエンボディド・ネイティブ・インテリジェンスの概念

エンボディド・ネイティブ・インテリジェンスとは、AIモデルが意味的な言語データと同時に、物理学の基本法則と空間的関係を学習するパラダイムを指します。このアプローチは、モデルが単にビデオを見たり説明を読んだりするだけの受動的な観察を超え、能動的な物理的グラウンディングへと移行するものです。自動運転のログやロボットの相互作用データを含む非均質データソースでトレーニングすることにより、DM0はインターネットのみのモデルでは再現できない物理世界に対する「常識」を身につけます。

研究チームは、基盤となるアーキテクチャがローレベル制御に最適化されていないため、インターネットモデルを物理学のためにファインチューニングするだけでは複雑なタスクには不十分であると主張しています。DM0は、多様なコーパスから空間的知識を統合することでこの課題に対処しています。例えば、自動運転のシナリオを含めることで、モデルは動きのダイナミクスや障害物回避を大規模に学習します。これらの物理的知見は足場(スキャフォールド)として機能し、モデルが2次元画像の理解から、奥行きや因果関係を伴う3次元空間での動作へと移行することを可能にします。

DM0の3段階パイプライン:事前学習、中間学習、事後学習とは?

DM0のパイプラインは、多様なウェブおよび物理コーパスによる統合された事前学習(Pretraining)、フローマッチング・アクション・エキスパートを構築するための中間学習(Mid-Training)、そしてタスク固有の洗練を行うための事後学習(Post-Training)で構成されています。 この構造化されたアプローチにより、モデルは広範な意味的知識を保持しつつ、物理的AIの領域における精密な操作や環境ナビゲーションに必要な専門的な運動スキルを獲得することができます。

事前学習フェーズにおいて、研究者はウェブテキスト、走行データ、相互作用ログを使用して、視覚言語モデル(VLM)の大規模なトレーニングを行います。この段階は、物理的な直感と並んで意味的知識を習得するために不可欠です。これに続く中間学習段階では、フローマッチング・アクション・エキスパートが導入されます。このコンポーネントはVLMの上に構築され、高レベルの推論とロボット制御のきめ細かな要件を調和させます。最後に、事後学習フェーズでは、RoboChallengeベンチマークなどの特定の環境で強化学習とファインチューニングを行い、モデルが高度な信頼性を持って専門的なタスクを処理できるようにします。

DM0はロボットの操作とナビゲーションの両方に使用できるか?

DM0は、これらのタスクを単一のフレームワーク内に統合することで、ロボットの操作とナビゲーションの両方が可能な汎用モデルとして設計されています。 操作に関するTable30ベンチマークで最先端のパフォーマンスを達成すると同時に、堅牢な空間的思考の連鎖(Spatial CoT)推論を実証しており、環境内をナビゲートしながら一連のワークフローの一部として物体と相互作用することができます。

歴史的に、ロボットシステムはサイロ化されて運用されてきました。あるモデルが地点Aから地点Bへの移動(ナビゲーション)を担当し、別のモデルが物体の持ち上げ(操作)を担当するといった具合です。DM0は、これら両方を身体的行動(embodied actions)として扱うことで、このサイロ化を打破します。この統合を支えるのが非均質データであり、広範な環境移動と微細な手と目の協調の両方の例をモデルに提供します。実用的なアプリケーションでは、DM0搭載ロボットがキッチンを移動して特定の果物を見つけ、それをボウルに正確に並べるといったことが可能になります。各ステップのローレベルな物理特性を管理しながら、ハイレベルな目標指向の集中力を維持できるのです。

技術的ブレイクスルー:フローマッチング・アクション・エキスパート

フローマッチング・アクション・エキスパートは、視覚および言語入力を物理的行動にマッピングすることで、DM0が正確な運動軌道を予測することを可能にする特殊なアーキテクチャ・コンポーネントです。 このメカニズムはハイブリッド学習戦略を採用しており、行動タスクからの勾配はコアとなるVLMにバックプロパゲーション(誤差逆伝播)されません。これにより、ロボットが特定の物理的AIスキルを学習する間も、一般的な推論能力の「破滅的忘却」を防ぐことができます。

  • 勾配の分離: 行動に関連する勾配がVLMを変更するのを防ぐことで、DM0は、ネジを回す方法を学習しても複雑な口頭指示を理解する能力が低下しないことを保証します。
  • エンボディド空間スキャフォールディング: この戦略は、思考の連鎖(Chain-of-Thought)推論を使用して「行動解決空間」を制約し、ロボットが動作を実行する前に論理的に計画を立てるのを支援します。
  • 効率の向上: フローマッチング・アプローチは、従来の拡散ベースのモデルと比較してトレーニング中の収束が速いため、大規模なデータセットでの学習がより現実的になります。

物理的AIの未来への影響とRoboChallengeでのパフォーマンス

RoboChallengeベンチマークにおけるDM0のパフォーマンスは、家庭用および産業用汎用ロボットの標準となる可能性を示しています。 Table30のスペシャリストおよびジェネラリスト設定の両方で最先端の結果を達成することで、DM0は、ケーブルの差し込みからアイテムの仕分けまで、エンボディド・ネイティブなモデルが最小限のタスク固有プログラミングで膨大なタスクを処理できることを証明しました。

分野が空間知能(Spatial Intelligence)へと向かう中、DM0フレームワークは明確なロードマップを提供します。多様な相互作用ログから学習できる能力は、世界に普及するロボットが増えるにつれて、DM0のようなモデルのためのデータプールが指数関数的に増加することを意味します。これにより、物理的AIが人間世界の微妙なニュアンスをますます巧みに理解できるようになるという、好循環が生まれます。物理的行動の観点から「考える」モデルを作成したHao LiuBin XieYi Yangらの成功は、次世代のロボットが単にタスクを実行するようにプログラムされるだけでなく、自分が存在する環境に対する本質的な理解を備えるようになることを示唆しています。

James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Readers Questions Answered

Q DM0は従来の視覚・言語・行動(VLA)モデルとどのように異なりますか?
A DM0は、ロボットデータで微調整された純粋に意味的な視覚言語モデル(VLM)を適応させるのではなく、固有のマルチソース物理的事前分布を組み込んだエンボディード・ネイティブ(身体性ネイティブ)モデルである点が、従来の視覚・言語・行動(VLA)モデルと異なります。これは、VLMの上にフロー・マッチング・アクション・エキスパートを構築するハイブリッド学習戦略を採用しており、汎用的な表現を維持するために、身体的データからの勾配をVLMにバックプロパゲーションさせない一方で、非身体的データでのVLM学習を可能にしています。この設計により、π0などのベースラインと比較して、複雑な操作タスクにおいて優れた性能を発揮します。
Q DM0はロボットの操作とナビゲーションの両方に使用できますか?
A はい、DM0はロボットの操作とナビゲーションの両方に使用できます。Table30などの操作ベンチマークで優れており、果物の配置やケーブルの差し込みといったタスクで最先端の結果を達成しています。また、モバイルコンテキストにも効果的に一般化でき、強力なChain-of-Thought(思考の連鎖)推論とモバイルエージェントへの応用の可能性を示しています。
Q DM0の事前学習、中間学習、事後学習という3段階のパイプラインとはどのようなものですか?
A 検索結果には、DM0の事前学習(Pretraining)、中間学習(Mid-Training)、事後学習(Post-Training)という3段階のパイプラインは明示的に記載されていません。代わりに、大規模データセットでの共同学習、VLM上へのフロー・マッチング・アクション・エキスパートの構築、および推論と制御のバランスをとるための選択的な勾配バックプロパゲーションを含むハイブリッド学習戦略が強調されています。推論は、直接的なアクション予測、またはアクションの条件となる推論されたテキスト出力のいずれかをサポートしています。

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!