DM0 definiert Physische KI durch Embodied Training neu

Eilmeldung Technologie
Close-up of a sleek robotic hand with intricate sensors reaching toward a metallic object in a dramatic high-tech setting.
4K Quality
Herkömmliche Roboter-KI stößt oft an Grenzen, da sie auf Modellen basiert, die primär mit Internet-Texten statt mit der physischen Welt trainiert wurden. Das neue DM0-Framework kehrt diesen Trend um, indem es ein Vision-Language-Action-Modell von Beginn an mit physischen Prioren trainiert, was Robotern ermöglicht, simultan zu navigieren und logische Schlüsse zu ziehen.

Physische KI hat mit der Einführung von DM0, einem Vision-Language-Action (VLA) Framework, das physikalische Gesetze und räumliches Denken von Anfang an integriert, einen entscheidenden Wendepunkt erreicht. Im Gegensatz zu früheren Modellen, die auf Internet-Texten und -Bildern basierten, haben Hao Liu, Bin Xie und Yi Yang ein System entwickelt, das physische Interaktion als primäre Datenquelle behandelt und nicht als bloße Feinabstimmung im Nachhinein. Dieser „embodied-native“ Ansatz ermöglicht es Robotern, komplexe Umgebungen zu navigieren und Objekte mit einer Präzision zu manipulieren, die biologischem Lernen nahekommt, wodurch die langjährige Lücke zwischen digitalem Denken und realer Ausführung geschlossen wird.

Wie unterscheidet sich DM0 von herkömmlichen Vision-Language-Action-Modellen?

DM0 unterscheidet sich von herkömmlichen VLA-Modellen dadurch, dass es von Beginn des Trainings an intrinsische physikalische Prioren aus mehreren Quellen einbezieht, anstatt sich auf die Feinabstimmung von im Internet vortrainierten Modellen zu verlassen. Durch den Einsatz einer hybriden Trainingsstrategie und eines Flow-Matching Action Expert bewahrt DM0 generalisierte semantische Repräsentationen und beherrscht gleichzeitig die für komplexe Roboteraufgaben erforderliche Hochfrequenzsteuerung, wobei es Benchmarks wie π0 effektiv übertrifft.

Herkömmliche Roboter-KI stößt oft an Grenzen, da sie auf Modellen basiert, die primär mit Internet-Texten und nicht mit der physischen Welt trainiert wurden. Diesen „Internet-first“-Modellen fehlt ein inhärentes Verständnis für räumliche Intelligenz, was zu „Halluzinationen“ bei physischen Bewegungen führt – ein Roboter versteht zwar den Befehl „hebe die Tasse auf“, begreift aber nicht das dafür erforderliche Drehmoment oder die notwendige Flugbahn. Im Gegensatz dazu ist DM0 ein embodied-native Modell. Das bedeutet, es ist darauf ausgelegt, Physical Grounding – die Beziehung zwischen visuellem Input, sprachlichen Befehlen und motorischem Output – als eine einzige, vereinheitlichte Sprache der Aktion zu verstehen.

Das Konzept der Embodied-Native Intelligence in der physischen KI

Embodied-native Intelligence bezieht sich auf ein Paradigma, bei dem ein KI-Modell die grundlegenden Gesetze der Physik und räumliche Beziehungen gleichzeitig mit semantischen Sprachdaten lernt. Dieser Ansatz geht über die passive Beobachtung hinaus, bei der ein Modell lediglich Videos ansieht oder Beschreibungen liest, hin zum aktiven Physical Grounding. Durch das Training mit heterogenen Datenquellen, einschließlich Logs zum autonomen Fahren und Roboter-Interaktionsdaten, entwickelt DM0 einen „gesunden Menschenverstand“ für die physische Welt, den reine Internet-Modelle nicht replizieren können.

Das Forschungsteam argumentiert, dass die Feinabstimmung von Internet-Modellen für die Physik für komplexe Aufgaben unzureichend ist, da die zugrunde liegende Architektur nicht für Low-Level-Steuerung optimiert ist. DM0 adressiert dies durch die Integration von räumlichem Wissen aus verschiedenen Korpora. Durch die Einbeziehung von Szenarien des autonomen Fahrens lernt das Modell beispielsweise die Dynamik von Bewegungen und Hindernisvermeidung in großem Maßstab. Diese physikalischen Prioren fungieren als Gerüst, das es dem Modell ermöglicht, vom Verständnis eines 2D-Bildes zum Agieren in einem 3D-Raum mit einem Gefühl für Tiefe und Konsequenzen überzugehen.

Was ist die dreistufige Pipeline von DM0: Pretraining, Mid-Training und Post-Training?

Die DM0-Pipeline besteht aus einem vereinheitlichten Pretraining auf verschiedenen Web- und physischen Korpora, einem Mid-Training zur Entwicklung eines Flow-Matching Action Expert und einem Post-Training zur aufgabenspezifischen Verfeinerung. Dieser strukturierte Ansatz stellt sicher, dass das Modell breites semantisches Wissen behält und gleichzeitig die spezialisierten motorischen Fähigkeiten erwirbt, die für präzise Manipulationen und die Navigation in Umgebungen im Bereich der Physischen KI erforderlich sind.

Während der Pretraining-Phase führen die Forscher ein großangelegtes Training des Vision-Language-Modells (VLM) unter Verwendung von Webtexten, Fahrdaten und Interaktionslogs durch. Diese Phase ist entscheidend für den Erwerb von semantischem Wissen parallel zur physikalischen Intuition. Darauf folgt die Mid-Training-Phase, in der ein Flow-Matching Action Expert eingeführt wird. Diese Komponente baut auf dem VLM auf, um High-Level-Denken mit den granularen Anforderungen der Robotersteuerung in Einklang zu bringen. Schließlich umfasst die Post-Training-Phase Reinforcement Learning und Feinabstimmung in spezifischen Umgebungen, wie dem RoboChallenge-Benchmark, um sicherzustellen, dass das Modell Spezialaufgaben mit hoher Zuverlässigkeit bewältigen kann.

Kann DM0 sowohl für die Robotermanipulation als auch für die Navigation eingesetzt werden?

DM0 ist als Generalistenmodell konzipiert, das sowohl zur Robotermanipulation als auch zur Navigation fähig ist, indem es diese Aufgaben in einem einzigen Framework vereinheitlicht. Es erreicht State-of-the-Art-Leistungen im Table30-Benchmark für Manipulation und demonstriert gleichzeitig ein robustes räumliches Chain-of-Thought (CoT)-Denken, das es ihm ermöglicht, durch Umgebungen zu navigieren und mit Objekten als Teil eines kontinuierlichen Workflows zu interagieren.

In der Vergangenheit arbeiteten Robotersysteme oft in Silos: Ein Modell war für die Bewegung von Punkt A nach Punkt B zuständig (Navigation), während ein anderes das Aufheben eines Objekts übernahm (Manipulation). DM0 bricht diese Silos auf, indem es beides als verkörperte Aktionen (embodied actions) behandelt. Diese Vereinheitlichung wird durch heterogene Daten ermöglicht, die dem Modell Beispiele sowohl für umfassende Umgebungsbewegungen als auch für feingliedrige Hand-Auge-Koordination liefern. In der praktischen Anwendung bedeutet dies, dass ein DM0-betriebener Roboter durch eine Küche navigieren könnte, um eine bestimmte Frucht zu finden, und diese dann präzise in einer Schüssel anordnet, wobei er einen übergeordneten, zielorientierten Fokus beibehält, während er die Low-Level-Physik jedes Schritts bewältigt.

Technische Durchbrüche: Der Flow-Matching Action Expert

Der Flow-Matching Action Expert ist eine spezialisierte Architekturkomponente, die es DM0 ermöglicht, präzise motorische Trajektorien vorherzusagen, indem sie visuelle und linguistische Eingaben auf physische Aktionen abbildet. Dieser Mechanismus nutzt eine hybride Trainingsstrategie, bei der Gradienten aus Aktionsaufgaben nicht auf das Kern-VLM zurückübertragen werden. Dadurch wird ein „katastrophales Vergessen“ allgemeiner Denkfähigkeiten verhindert, während der Roboter spezifische Physical AI-Fertigkeiten erlernt.

  • Gradientenisolierung: Durch das Verhindern, dass aktionsbezogene Gradienten das VLM verändern, stellt DM0 sicher, dass das Erlernen des Eindrehens einer Schraube nicht die Fähigkeit des Modells beeinträchtigt, komplexe verbale Anweisungen zu verstehen.
  • Embodied Spatial Scaffolding: Diese Strategie nutzt Chain-of-Thought-Denken, um den „Aktions-Lösungsraum“ einzugrenzen, was dem Roboter hilft, seine Bewegungen logisch zu planen, bevor er sie ausführt.
  • Effizienzgewinne: Der Flow-Matching-Ansatz ermöglicht eine schnellere Konvergenz während des Trainings im Vergleich zu herkömmlichen diffusionsbasierten Modellen, was das Training auf massiven Datensätzen praktikabler macht.

Zukünftige Auswirkungen auf die physische KI und die Leistung in RoboChallenge

Die Leistung von DM0 im RoboChallenge-Benchmark demonstriert sein Potenzial, der Standard für Allzweck-Haushalts- und Industrieroboter zu werden. Durch das Erreichen von State-of-the-Art-Ergebnissen sowohl in spezialisierten als auch in generalisierten Szenarien auf Table30 beweist DM0, dass embodied-native Modelle eine enorme Bandbreite an Aufgaben bewältigen können – vom Einstecken von Kabeln bis zum Sortieren von Gegenständen – und das bei minimaler aufgabenspezifischer Programmierung.

Da sich das Feld in Richtung räumlicher Intelligenz (Spatial Intelligence) bewegt, bietet das DM0-Framework einen klaren Fahrplan. Die Fähigkeit, aus vielfältigen Interaktionslogs zu lernen, bedeutet, dass mit der zunehmenden Anzahl von Robotern in der Welt auch der Datenpool für Modelle wie DM0 exponentiell wachsen wird. Dies schafft einen positiven Kreislauf, in dem die Physische KI immer geschickter darin wird, die Nuancen der menschlichen Welt zu verstehen. Der Erfolg von Hao Liu, Bin Xie und Yi Yang bei der Erstellung eines Modells, das in Kategorien physischer Aktionen „denkt“, legt nahe, dass die nächste Generation von Robotern nicht mehr nur für Aufgaben programmiert wird, sondern ein inhärentes Verständnis für die Umgebungen besitzt, in denen sie existiert.

James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Leserfragen beantwortet

Q Wie unterscheidet sich DM0 von herkömmlichen Vision-Language-Action-Modellen?
A DM0 unterscheidet sich von herkömmlichen Vision-Language-Action-Modellen (VLA) dadurch, dass es ein Embodied-Native-Modell ist, das intrinsische physikalische Prioren aus mehreren Quellen integriert, anstatt rein semantische Vision-Language-Modelle (VLMs) zu adaptieren, die auf Roboterdaten feingetuned wurden. Es verwendet eine hybride Trainingsstrategie, bei der ein Flow-Matching-Action-Expert auf dem VLM aufgebaut wird, wobei Gradienten aus verkörperten Daten nicht an das VLM zurückpropagiert werden, um generalisierte Repräsentationen zu bewahren, während gleichzeitig das VLM-Training auf nicht-verkörperten Daten ermöglicht wird. Dieses Design ermöglicht eine überlegene Leistung bei komplexen Manipulationsaufgaben im Vergleich zu Baselines wie π0.
Q Kann DM0 sowohl für die Robotermanipulation als auch für die Navigation eingesetzt werden?
A Ja, DM0 kann sowohl für die Robotermanipulation als auch für die Navigation eingesetzt werden. Es zeichnet sich in Manipulations-Benchmarks wie Table30 aus und erzielt State-of-the-Art-Ergebnisse bei Aufgaben wie dem Anordnen von Früchten und dem Einstecken von Kabeln. Es lässt sich zudem effektiv auf mobile Kontexte generalisieren und zeigt eine starke Chain-of-Thought-Argumentation sowie Potenzial für Anwendungen mit mobilen Agenten.
Q Was ist die dreistufige Pipeline von DM0: Pre-Training, Mid-Training und Post-Training?
A Die Suchergebnisse beschreiben keine explizite dreistufige Pipeline aus Pre-Training, Mid-Training und Post-Training für DM0. Stattdessen heben sie eine hybride Trainingsstrategie hervor, die ein gemeinsames Training auf großskaligen Datensätzen, den Aufbau eines Flow-Matching-Action-Experts auf einem VLM und eine selektive Gradienten-Rückführung umfasst, um Argumentation und Steuerung auszubalancieren. Die Inferenz unterstützt die direkte Aktionsvorhersage oder begründete Textausgaben, die Aktionen konditionieren.

Haben Sie eine Frage zu diesem Artikel?

Fragen werden vor der Veröffentlichung geprüft. Wir beantworten die besten!

Kommentare

Noch keine Kommentare. Seien Sie der Erste!