DM0 herdefinieert fysieke AI door middel van embodied training

Breaking News Technologie
Close-up of a sleek robotic hand with intricate sensors reaching toward a metallic object in a dramatic high-tech setting.
4K Quality
Traditionele robotica-AI heeft het vaak moeilijk omdat deze is aangepast van modellen die primair getraind zijn op internetteksten in plaats van de fysieke wereld. Het nieuwe DM0-framework keert deze trend om door een Vision-Language-Action-model vanaf het begin te trainen op fysieke priors, waardoor robots gelijktijdig kunnen navigeren en redeneren.

Fysieke AI heeft een cruciaal keerpunt bereikt met de introductie van DM0, een vision-language-action (VLA)-framework dat natuurwetten en ruimtelijk redeneren vanaf de basis integreert. In tegenstelling tot eerdere modellen die werden aangepast op basis van internetteksten en afbeeldingen, hebben Hao Liu, Bin Xie en Yi Yang een systeem ontwikkeld dat fysieke interactie behandelt als een primaire gegevensbron in plaats van een bijzaak voor fine-tuning. Deze "embodied-native" aanpak stelt robots in staat om door complexe omgevingen te navigeren en objecten te manipuleren met een precisie die biologisch leren weerspiegelt, waardoor de langbestaande kloof tussen digitaal redeneren en uitvoering in de echte wereld wordt overbrugd.

Hoe verschilt DM0 van traditionele vision-language-action-modellen?

DM0 onderscheidt zich van traditionele VLA-modellen door vanaf het begin van de training intrinsieke fysieke priors uit meerdere bronnen te integreren, in plaats van te vertrouwen op het fine-tunen van op internet getrainde modellen. Door gebruik te maken van een hybride trainingsstrategie en een flow-matching actie-expert, behoudt DM0 gegeneraliseerde semantische representaties terwijl het tegelijkertijd de hoogfrequente controle beheerst die vereist is voor complexe robotica-taken, waarmee het benchmarks zoals π0 effectief overtreft.

Traditionele robotica-AI heeft vaak moeite omdat het is aangepast van modellen die primair zijn getraind op internettekst in plaats van op de fysieke wereld. Deze "internet-first"-modellen missen een inherent begrip van ruimtelijke intelligentie, wat leidt tot "hallucinaties" in fysieke bewegingen waarbij een robot wel het commando "pak de beker op" begrijpt, maar het koppel of het traject dat daarvoor nodig is niet vat. DM0 is daarentegen een embodied-native model. Dit betekent dat het is gebouwd om fysieke gronding—de relatie tussen visuele input, taalkundige commando's en motorische output—te begrijpen als één uniforme actietaal.

Het concept van embodied-native intelligentie in fysieke AI

Embodied-native intelligentie verwijst naar een paradigma waarbij een AI-model de fundamentele natuurwetten en ruimtelijke relaties gelijktijdig leert met semantische taalgegevens. Deze aanpak gaat verder dan passieve observatie, waarbij een model enkel video's bekijkt of beschrijvingen leest, naar actieve fysieke gronding. Door te trainen op heterogene gegevensbronnen, waaronder logs van autonoom rijden en data van robotinteracties, ontwikkelt DM0 een "gezond verstand" voor de fysieke wereld dat modellen die alleen op internet zijn getraind niet kunnen repliceren.

Het onderzoeksteam stelt dat het fine-tunen van internetmodellen voor fysica onvoldoende is voor complexe taken omdat de onderliggende architectuur niet is geoptimaliseerd voor low-level controle. DM0 pakt dit aan door ruimtelijke kennis uit diverse corpora te integreren. Door bijvoorbeeld scenario's voor autonoom rijden op te nemen, leert het model de dynamiek van beweging en het vermijden van obstakels op schaal. Deze fysieke priors fungeren als een raamwerk, waardoor het model de overstap kan maken van het begrijpen van een 2D-beeld naar het opereren in een 3D-ruimte met een gevoel voor diepte en consequenties.

Wat is de driestaps-pijplijn van DM0: Pretraining, Mid-Training en Post-Training?

De DM0-pijplijn bestaat uit een verenigde Pretraining op diverse web- en fysieke corpora, Mid-Training om een flow-matching actie-expert te ontwikkelen, en Post-Training voor taakspecifieke verfijning. Deze gestructureerde aanpak zorgt ervoor dat het model brede semantische kennis behoudt terwijl het de gespecialiseerde motorische vaardigheden verwerft die nodig zijn voor precisie-manipulatie en navigatie in de omgeving binnen het domein van de fysieke AI.

Tijdens de Pretraining-fase voeren de onderzoekers grootschalige trainingen uit op het Vision-Language Model (VLM) met behulp van webtekst, rijgegevens en interactielogs. Deze fase is cruciaal voor het verwerven van semantische kennis naast fysieke intuïtie. Hierop volgend introduceert de Mid-Training-fase een flow-matching actie-expert. Deze component is bovenop het VLM gebouwd om redeneren op hoog niveau te verenigen met de fijnmazige vereisten van robotbesturing. Ten slotte omvat de Post-Training-fase reinforcement learning en fine-tuning in specifieke omgevingen, zoals de RoboChallenge-benchmark, om ervoor te zorgen dat het model specialistische taken met hoge betrouwbaarheid kan uitvoeren.

Kan DM0 worden gebruikt voor zowel robotmanipulatie als navigatie?

DM0 is ontworpen om te functioneren als een generalistisch model dat in staat is tot zowel robotmanipulatie als navigatie door deze taken binnen één enkel framework te verenigen. Het behaalt state-of-the-art prestaties op de Table30-benchmark voor manipulatie, terwijl het een robuust ruimtelijk Chain-of-Thought (CoT)-redeneren vertoont waarmee het door omgevingen kan navigeren en met objecten kan interageren als onderdeel van een continue workflow.

Historisch gezien werkten robotische systemen in silo's: het ene model hield zich bezig met de verplaatsing van punt A naar punt B (navigatie), terwijl een ander model het oppakken van een object afhandelde (manipulatie). DM0 doorbreekt deze silo's door beide te behandelen als embodied acties. Deze eenwording wordt aangedreven door heterogene data, die het model voorziet van voorbeelden van zowel brede omgevingsbewegingen als fijnmazige hand-oogcoördinatie. In praktische toepassingen betekent dit dat een door DM0 aangedreven robot door een keuken zou kunnen navigeren om een specifiek stuk fruit te vinden en dit vervolgens nauwkeurig in een schaal kan schikken, waarbij een doelgerichte focus op hoog niveau behouden blijft terwijl de low-level fysica van elke stap wordt beheerd.

Technische doorbraken: De flow-matching actie-expert

De flow-matching actie-expert is een gespecialiseerde architecturale component waarmee DM0 nauwkeurige motorische trajecten kan voorspellen door visuele en taalkundige inputs te koppelen aan fysieke acties. Dit mechanisme maakt gebruik van een hybride trainingsstrategie waarbij gradiënten van actietaken niet worden teruggekoppeld naar het kern-VLM, waardoor "catastrophale vergetelheid" van algemene redeneervaardigheden wordt voorkomen terwijl de robot specifieke fysieke AI-vaardigheden leert.

  • Gradiënt-isolatie: Door te voorkomen dat actie-gerelateerde gradiënten het VLM wijzigen, zorgt DM0 ervoor dat het leren van het aandraaien van een schroef het vermogen van het model om complexe verbale instructies te begrijpen niet aantast.
  • Embodied ruimtelijke ondersteuning: Deze strategie maakt gebruik van Chain-of-Thought-redeneren om de "actie-oplossingsruimte" te beperken, wat de robot helpt zijn bewegingen logisch te plannen voordat hij ze uitvoert.
  • Efficiëntieverbeteringen: De flow-matching aanpak maakt een snellere convergentie tijdens de training mogelijk vergeleken met traditionele op diffusie gebaseerde modellen, waardoor het haalbaarder wordt om te trainen op enorme datasets.

Toekomstige implicaties voor fysieke AI en RoboChallenge-prestaties

De prestaties van DM0 op de RoboChallenge-benchmark tonen het potentieel aan om de standaard te worden voor multifunctionele huishoudelijke en industriële robots. Door state-of-the-art resultaten te behalen in zowel specialistische als generalistische instellingen op Table30, bewijst DM0 dat embodied-native modellen een breed scala aan taken kunnen uitvoeren—van het aansluiten van kabels tot het sorteren van items—met minimale taakspecifieke programmering.

Terwijl het veld zich beweegt in de richting van ruimtelijke intelligentie, biedt het DM0-framework een duidelijke routekaart. Het vermogen om te leren van diverse interactielogs betekent dat naarmate er meer robots in de wereld komen, de hoeveelheid data voor modellen zoals DM0 exponentieel zal groeien. Dit creëert een positieve spiraal waarin fysieke AI steeds bedrevener wordt in het begrijpen van de nuances van de menselijke wereld. Het succes van Hao Liu, Bin Xie en Yi Yang in het creëren van een model dat "denkt" in termen van fysieke actie, suggereert dat de volgende generatie robots niet alleen geprogrammeerd zal zijn om taken uit te voeren, maar een inherent begrip zal hebben van de omgevingen waarin zij zich bevinden.

James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Readers Questions Answered

Q Hoe verschilt DM0 van traditionele vision-language-action-modellen?
A DM0 verschilt van traditionele vision-language-action (VLA)-modellen doordat het een 'embodied-native' model is dat intrinsieke fysieke priors uit meerdere bronnen integreert, in plaats van puur semantische vision-language-modellen (VLM's) aan te passen die zijn gefinetuned op robotdata. Het maakt gebruik van een hybride trainingsstrategie waarbij een 'flow-matching action expert' bovenop de VLM wordt gebouwd, waarbij gradiënten van embodied data niet worden teruggekoppeld naar de VLM om gegeneraliseerde representaties te behouden, terwijl de VLM wel getraind kan worden op niet-embodied data. Dit ontwerp maakt superieure prestaties mogelijk bij complexe manipulatietaken in vergelijking met baselines zoals π0.
Q Kan DM0 worden gebruikt voor zowel robotmanipulatie als navigatie?
A Ja, DM0 kan worden gebruikt voor zowel robotmanipulatie als navigatie. Het blinkt uit in manipulatie-benchmarks zoals Table30, waarbij state-of-the-art resultaten worden behaald in taken zoals het rangschikken van fruit en het aansluiten van kabels. Het generaliseert ook effectief naar mobiele contexten, waarbij het een sterk 'chain-of-thought'-redeneervermogen en potentieel voor mobiele agent-toepassingen toont.
Q Wat is de driefasen-pipeline van DM0: Pretraining, Mid-Training en Post-Training?
A De zoekresultaten beschrijven niet expliciet een driefasen-pipeline van Pretraining, Mid-Training en Post-Training voor DM0. In plaats daarvan benadrukken ze een hybride trainingsstrategie die gezamenlijke training op grootschalige datasets omvat, het bouwen van een 'flow-matching action expert' op een VLM, en selectieve gradiënt-backpropagation om redeneren en controle in evenwicht te brengen. Inferentie ondersteunt directe actievoorspelling of beredeneerde tekstuele output die acties conditioneert.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!