Fysieke AI heeft een cruciaal keerpunt bereikt met de introductie van DM0, een vision-language-action (VLA)-framework dat natuurwetten en ruimtelijk redeneren vanaf de basis integreert. In tegenstelling tot eerdere modellen die werden aangepast op basis van internetteksten en afbeeldingen, hebben Hao Liu, Bin Xie en Yi Yang een systeem ontwikkeld dat fysieke interactie behandelt als een primaire gegevensbron in plaats van een bijzaak voor fine-tuning. Deze "embodied-native" aanpak stelt robots in staat om door complexe omgevingen te navigeren en objecten te manipuleren met een precisie die biologisch leren weerspiegelt, waardoor de langbestaande kloof tussen digitaal redeneren en uitvoering in de echte wereld wordt overbrugd.
Hoe verschilt DM0 van traditionele vision-language-action-modellen?
DM0 onderscheidt zich van traditionele VLA-modellen door vanaf het begin van de training intrinsieke fysieke priors uit meerdere bronnen te integreren, in plaats van te vertrouwen op het fine-tunen van op internet getrainde modellen. Door gebruik te maken van een hybride trainingsstrategie en een flow-matching actie-expert, behoudt DM0 gegeneraliseerde semantische representaties terwijl het tegelijkertijd de hoogfrequente controle beheerst die vereist is voor complexe robotica-taken, waarmee het benchmarks zoals π0 effectief overtreft.
Traditionele robotica-AI heeft vaak moeite omdat het is aangepast van modellen die primair zijn getraind op internettekst in plaats van op de fysieke wereld. Deze "internet-first"-modellen missen een inherent begrip van ruimtelijke intelligentie, wat leidt tot "hallucinaties" in fysieke bewegingen waarbij een robot wel het commando "pak de beker op" begrijpt, maar het koppel of het traject dat daarvoor nodig is niet vat. DM0 is daarentegen een embodied-native model. Dit betekent dat het is gebouwd om fysieke gronding—de relatie tussen visuele input, taalkundige commando's en motorische output—te begrijpen als één uniforme actietaal.
Het concept van embodied-native intelligentie in fysieke AI
Embodied-native intelligentie verwijst naar een paradigma waarbij een AI-model de fundamentele natuurwetten en ruimtelijke relaties gelijktijdig leert met semantische taalgegevens. Deze aanpak gaat verder dan passieve observatie, waarbij een model enkel video's bekijkt of beschrijvingen leest, naar actieve fysieke gronding. Door te trainen op heterogene gegevensbronnen, waaronder logs van autonoom rijden en data van robotinteracties, ontwikkelt DM0 een "gezond verstand" voor de fysieke wereld dat modellen die alleen op internet zijn getraind niet kunnen repliceren.
Het onderzoeksteam stelt dat het fine-tunen van internetmodellen voor fysica onvoldoende is voor complexe taken omdat de onderliggende architectuur niet is geoptimaliseerd voor low-level controle. DM0 pakt dit aan door ruimtelijke kennis uit diverse corpora te integreren. Door bijvoorbeeld scenario's voor autonoom rijden op te nemen, leert het model de dynamiek van beweging en het vermijden van obstakels op schaal. Deze fysieke priors fungeren als een raamwerk, waardoor het model de overstap kan maken van het begrijpen van een 2D-beeld naar het opereren in een 3D-ruimte met een gevoel voor diepte en consequenties.
Wat is de driestaps-pijplijn van DM0: Pretraining, Mid-Training en Post-Training?
De DM0-pijplijn bestaat uit een verenigde Pretraining op diverse web- en fysieke corpora, Mid-Training om een flow-matching actie-expert te ontwikkelen, en Post-Training voor taakspecifieke verfijning. Deze gestructureerde aanpak zorgt ervoor dat het model brede semantische kennis behoudt terwijl het de gespecialiseerde motorische vaardigheden verwerft die nodig zijn voor precisie-manipulatie en navigatie in de omgeving binnen het domein van de fysieke AI.
Tijdens de Pretraining-fase voeren de onderzoekers grootschalige trainingen uit op het Vision-Language Model (VLM) met behulp van webtekst, rijgegevens en interactielogs. Deze fase is cruciaal voor het verwerven van semantische kennis naast fysieke intuïtie. Hierop volgend introduceert de Mid-Training-fase een flow-matching actie-expert. Deze component is bovenop het VLM gebouwd om redeneren op hoog niveau te verenigen met de fijnmazige vereisten van robotbesturing. Ten slotte omvat de Post-Training-fase reinforcement learning en fine-tuning in specifieke omgevingen, zoals de RoboChallenge-benchmark, om ervoor te zorgen dat het model specialistische taken met hoge betrouwbaarheid kan uitvoeren.
Kan DM0 worden gebruikt voor zowel robotmanipulatie als navigatie?
DM0 is ontworpen om te functioneren als een generalistisch model dat in staat is tot zowel robotmanipulatie als navigatie door deze taken binnen één enkel framework te verenigen. Het behaalt state-of-the-art prestaties op de Table30-benchmark voor manipulatie, terwijl het een robuust ruimtelijk Chain-of-Thought (CoT)-redeneren vertoont waarmee het door omgevingen kan navigeren en met objecten kan interageren als onderdeel van een continue workflow.
Historisch gezien werkten robotische systemen in silo's: het ene model hield zich bezig met de verplaatsing van punt A naar punt B (navigatie), terwijl een ander model het oppakken van een object afhandelde (manipulatie). DM0 doorbreekt deze silo's door beide te behandelen als embodied acties. Deze eenwording wordt aangedreven door heterogene data, die het model voorziet van voorbeelden van zowel brede omgevingsbewegingen als fijnmazige hand-oogcoördinatie. In praktische toepassingen betekent dit dat een door DM0 aangedreven robot door een keuken zou kunnen navigeren om een specifiek stuk fruit te vinden en dit vervolgens nauwkeurig in een schaal kan schikken, waarbij een doelgerichte focus op hoog niveau behouden blijft terwijl de low-level fysica van elke stap wordt beheerd.
Technische doorbraken: De flow-matching actie-expert
De flow-matching actie-expert is een gespecialiseerde architecturale component waarmee DM0 nauwkeurige motorische trajecten kan voorspellen door visuele en taalkundige inputs te koppelen aan fysieke acties. Dit mechanisme maakt gebruik van een hybride trainingsstrategie waarbij gradiënten van actietaken niet worden teruggekoppeld naar het kern-VLM, waardoor "catastrophale vergetelheid" van algemene redeneervaardigheden wordt voorkomen terwijl de robot specifieke fysieke AI-vaardigheden leert.
- Gradiënt-isolatie: Door te voorkomen dat actie-gerelateerde gradiënten het VLM wijzigen, zorgt DM0 ervoor dat het leren van het aandraaien van een schroef het vermogen van het model om complexe verbale instructies te begrijpen niet aantast.
- Embodied ruimtelijke ondersteuning: Deze strategie maakt gebruik van Chain-of-Thought-redeneren om de "actie-oplossingsruimte" te beperken, wat de robot helpt zijn bewegingen logisch te plannen voordat hij ze uitvoert.
- Efficiëntieverbeteringen: De flow-matching aanpak maakt een snellere convergentie tijdens de training mogelijk vergeleken met traditionele op diffusie gebaseerde modellen, waardoor het haalbaarder wordt om te trainen op enorme datasets.
Toekomstige implicaties voor fysieke AI en RoboChallenge-prestaties
De prestaties van DM0 op de RoboChallenge-benchmark tonen het potentieel aan om de standaard te worden voor multifunctionele huishoudelijke en industriële robots. Door state-of-the-art resultaten te behalen in zowel specialistische als generalistische instellingen op Table30, bewijst DM0 dat embodied-native modellen een breed scala aan taken kunnen uitvoeren—van het aansluiten van kabels tot het sorteren van items—met minimale taakspecifieke programmering.
Terwijl het veld zich beweegt in de richting van ruimtelijke intelligentie, biedt het DM0-framework een duidelijke routekaart. Het vermogen om te leren van diverse interactielogs betekent dat naarmate er meer robots in de wereld komen, de hoeveelheid data voor modellen zoals DM0 exponentieel zal groeien. Dit creëert een positieve spiraal waarin fysieke AI steeds bedrevener wordt in het begrijpen van de nuances van de menselijke wereld. Het succes van Hao Liu, Bin Xie en Yi Yang in het creëren van een model dat "denkt" in termen van fysieke actie, suggereert dat de volgende generatie robots niet alleen geprogrammeerd zal zijn om taken uit te voeren, maar een inherent begrip zal hebben van de omgevingen waarin zij zich bevinden.
Comments
No comments yet. Be the first!