物理的AI(Physical AI)は、物理法則と空間推論を設計当初から組み込んだ視覚・言語・行動(VLA)フレームワーク「DM0」の登場により、極めて重要な転換点を迎えました。インターネット上のテキストや画像から適応させた従来のモデルとは異なり、Hao Liu、Bin Xie、Yi Yangらは、物理的な相互作用をファインチューニングの付け足しとしてではなく、主要なデータソースとして扱うシステムを開発しました。この「エンボディド・ネイティブ(身体性ネイティブ)」アプローチにより、ロボットは複雑な環境をナビゲートし、生物学的な学習に近い精度で物体を操作することが可能になり、デジタルな推論と現実世界での実行の間に長年存在していた隔たりを埋めることができます。
DM0は従来の視覚・言語・行動(VLA)モデルとどう違うのか?
DM0は、インターネットで事前学習されたモデルのファインチューニングに頼るのではなく、トレーニングの開始時から本質的なマルチソースの物理的知見(フィジカル・プライア)を取り入れている点で、従来のVLAモデルとは異なります。 ハイブリッド学習戦略とフローマッチング・アクション・エキスパートを活用することで、DM0は汎用的な意味表現を維持しながら、複雑なロボットタスクに不可欠な高頻度制御を同時に習得し、π0などのベンチマークを効果的に上回る性能を発揮します。
従来のロボットAIは、物理世界ではなく主にインターネット上のテキストで学習されたモデルを適応させているため、苦戦することがよくありました。これらの「インターネット・ファースト」モデルは、本質的な空間知能を欠いており、ロボットが「カップを持ち上げる」という指令は理解できても、それを実行するために必要なトルクや軌道を把握できず、物理的な動きにおいて「ハルシネーション(幻覚)」を引き起こす原因となっていました。対照的に、DM0はエンボディド・ネイティブなモデルです。つまり、視覚入力、言語指令、そしてモーター出力の関係である物理的グラウンディングを、単一の統合された行動言語として理解するように構築されています。
物理的AIにおけるエンボディド・ネイティブ・インテリジェンスの概念
エンボディド・ネイティブ・インテリジェンスとは、AIモデルが意味的な言語データと同時に、物理学の基本法則と空間的関係を学習するパラダイムを指します。このアプローチは、モデルが単にビデオを見たり説明を読んだりするだけの受動的な観察を超え、能動的な物理的グラウンディングへと移行するものです。自動運転のログやロボットの相互作用データを含む非均質データソースでトレーニングすることにより、DM0はインターネットのみのモデルでは再現できない物理世界に対する「常識」を身につけます。
研究チームは、基盤となるアーキテクチャがローレベル制御に最適化されていないため、インターネットモデルを物理学のためにファインチューニングするだけでは複雑なタスクには不十分であると主張しています。DM0は、多様なコーパスから空間的知識を統合することでこの課題に対処しています。例えば、自動運転のシナリオを含めることで、モデルは動きのダイナミクスや障害物回避を大規模に学習します。これらの物理的知見は足場(スキャフォールド)として機能し、モデルが2次元画像の理解から、奥行きや因果関係を伴う3次元空間での動作へと移行することを可能にします。
DM0の3段階パイプライン:事前学習、中間学習、事後学習とは?
DM0のパイプラインは、多様なウェブおよび物理コーパスによる統合された事前学習(Pretraining)、フローマッチング・アクション・エキスパートを構築するための中間学習(Mid-Training)、そしてタスク固有の洗練を行うための事後学習(Post-Training)で構成されています。 この構造化されたアプローチにより、モデルは広範な意味的知識を保持しつつ、物理的AIの領域における精密な操作や環境ナビゲーションに必要な専門的な運動スキルを獲得することができます。
事前学習フェーズにおいて、研究者はウェブテキスト、走行データ、相互作用ログを使用して、視覚言語モデル(VLM)の大規模なトレーニングを行います。この段階は、物理的な直感と並んで意味的知識を習得するために不可欠です。これに続く中間学習段階では、フローマッチング・アクション・エキスパートが導入されます。このコンポーネントはVLMの上に構築され、高レベルの推論とロボット制御のきめ細かな要件を調和させます。最後に、事後学習フェーズでは、RoboChallengeベンチマークなどの特定の環境で強化学習とファインチューニングを行い、モデルが高度な信頼性を持って専門的なタスクを処理できるようにします。
DM0はロボットの操作とナビゲーションの両方に使用できるか?
DM0は、これらのタスクを単一のフレームワーク内に統合することで、ロボットの操作とナビゲーションの両方が可能な汎用モデルとして設計されています。 操作に関するTable30ベンチマークで最先端のパフォーマンスを達成すると同時に、堅牢な空間的思考の連鎖(Spatial CoT)推論を実証しており、環境内をナビゲートしながら一連のワークフローの一部として物体と相互作用することができます。
歴史的に、ロボットシステムはサイロ化されて運用されてきました。あるモデルが地点Aから地点Bへの移動(ナビゲーション)を担当し、別のモデルが物体の持ち上げ(操作)を担当するといった具合です。DM0は、これら両方を身体的行動(embodied actions)として扱うことで、このサイロ化を打破します。この統合を支えるのが非均質データであり、広範な環境移動と微細な手と目の協調の両方の例をモデルに提供します。実用的なアプリケーションでは、DM0搭載ロボットがキッチンを移動して特定の果物を見つけ、それをボウルに正確に並べるといったことが可能になります。各ステップのローレベルな物理特性を管理しながら、ハイレベルな目標指向の集中力を維持できるのです。
技術的ブレイクスルー:フローマッチング・アクション・エキスパート
フローマッチング・アクション・エキスパートは、視覚および言語入力を物理的行動にマッピングすることで、DM0が正確な運動軌道を予測することを可能にする特殊なアーキテクチャ・コンポーネントです。 このメカニズムはハイブリッド学習戦略を採用しており、行動タスクからの勾配はコアとなるVLMにバックプロパゲーション(誤差逆伝播)されません。これにより、ロボットが特定の物理的AIスキルを学習する間も、一般的な推論能力の「破滅的忘却」を防ぐことができます。
- 勾配の分離: 行動に関連する勾配がVLMを変更するのを防ぐことで、DM0は、ネジを回す方法を学習しても複雑な口頭指示を理解する能力が低下しないことを保証します。
- エンボディド空間スキャフォールディング: この戦略は、思考の連鎖(Chain-of-Thought)推論を使用して「行動解決空間」を制約し、ロボットが動作を実行する前に論理的に計画を立てるのを支援します。
- 効率の向上: フローマッチング・アプローチは、従来の拡散ベースのモデルと比較してトレーニング中の収束が速いため、大規模なデータセットでの学習がより現実的になります。
物理的AIの未来への影響とRoboChallengeでのパフォーマンス
RoboChallengeベンチマークにおけるDM0のパフォーマンスは、家庭用および産業用汎用ロボットの標準となる可能性を示しています。 Table30のスペシャリストおよびジェネラリスト設定の両方で最先端の結果を達成することで、DM0は、ケーブルの差し込みからアイテムの仕分けまで、エンボディド・ネイティブなモデルが最小限のタスク固有プログラミングで膨大なタスクを処理できることを証明しました。
分野が空間知能(Spatial Intelligence)へと向かう中、DM0フレームワークは明確なロードマップを提供します。多様な相互作用ログから学習できる能力は、世界に普及するロボットが増えるにつれて、DM0のようなモデルのためのデータプールが指数関数的に増加することを意味します。これにより、物理的AIが人間世界の微妙なニュアンスをますます巧みに理解できるようになるという、好循環が生まれます。物理的行動の観点から「考える」モデルを作成したHao Liu、Bin Xie、Yi Yangらの成功は、次世代のロボットが単にタスクを実行するようにプログラムされるだけでなく、自分が存在する環境に対する本質的な理解を備えるようになることを示唆しています。
Comments
No comments yet. Be the first!