DM0 omdefinierar fysisk AI genom förkroppsligad träning

Breaking News Teknik
Close-up of a sleek robotic hand with intricate sensors reaching toward a metallic object in a dramatic high-tech setting.
4K Quality
Traditionell robot-AI har ofta svårigheter eftersom den baseras på modeller tränade på internettext snarare än den fysiska världen. Det nya ramverket DM0 bryter trenden genom att träna en Vision-Language-Action-modell på fysiska priorer från start, vilket gör det möjligt för robotar att navigera och resonera samtidigt.

Fysisk AI har nått en avgörande vändpunkt i och med introduktionen av DM0, ett vision-språk-handlings-ramverk (VLA) som integrerar fysiska lagar och rumsligt resonerande från allra första början. Till skillnad från tidigare modeller som anpassats från text och bilder på internet, har Hao Liu, Bin Xie och Yi Yang utvecklat ett system som behandlar fysisk interaktion som en primär datakälla snarare än en efterhandsreflektion vid finjustering. Detta "embodied-native" tillvägagångssätt gör det möjligt för robotar att navigera i komplexa miljöer och manipulera objekt med en precision som speglar biologiskt lärande, vilket överbryggar det långvariga gapet mellan digitalt resonerande och utförande i den verkliga världen.

Hur skiljer sig DM0 från traditionella vision-språk-handlings-modeller?

DM0 skiljer sig från traditionella VLA-modeller genom att införliva inneboende fysiska priors från flera källor redan vid träningsstart, snarare än att förlita sig på finjustering av modeller som förtränats på internet. Genom att använda en hybrid träningsstrategi och en flödesmatchande handlings-expert, bevarar DM0 generaliserade semantiska representationer samtidigt som den bemästrar den högfrekventa kontroll som krävs för komplexa robotuppgifter, vilket gör att den presterar bättre än riktmärken som π0.

Traditionell robot-AI kämpar ofta eftersom den är anpassad från modeller som främst tränats på internettext snarare än den fysiska världen. Dessa "internet-först"-modeller saknar en inneboende förståelse för rumslig intelligens, vilket leder till "hallucinationer" i fysiska rörelser där en robot kan förstå kommandot "lyft upp koppen" men misslyckas med att greppa det vridmoment eller den bana som krävs för att göra det. DM0 är däremot en embodied-native modell. Detta innebär att den är byggd för att förstå fysisk förankring – förhållandet mellan visuella intryck, språkliga kommandon och motorisk utmatning – som ett enda, enhetligt handlingsspråk.

Konceptet med Embodied-Native intelligens inom fysisk AI

Embodied-native intelligens avser ett paradigm där en AI-modell lär sig fysikens grundläggande lagar och rumsliga relationer samtidigt med semantisk språkdata. Detta tillvägagångssätt går bortom passiv observation, där en modell bara tittar på videor eller läser beskrivningar, till aktiv fysisk förankring. Genom att träna på heterogena datakällor, inklusive loggar från autonom körning och robotinteraktionsdata, utvecklar DM0 ett "sunt förnuft" för den fysiska världen som modeller som enbart tränats på internet inte kan replikera.

Forskargruppen hävdar att finjustering av internetmodeller för fysik är otillräcklig för komplexa uppgifter eftersom den underliggande arkitekturen inte är optimerad för lågnivåkontroll. DM0 adresserar detta genom att integrera rumslig kunskap från olika korpusar. Genom att till exempel inkludera autonoma körscenarier lär sig modellen rörelsedynamik och undvikande av hinder i stor skala. Dessa fysiska priors fungerar som en stödstruktur som gör det möjligt för modellen att gå från att förstå en 2D-bild till att operera i ett 3D-rum med en känsla för djup och konsekvens.

Vad är DM0:s trestegsprocess: Förträning, mellanträning och efterträning?

DM0:s process består av enhetlig förträning på diverse webb- och fysiska korpusar, mellanträning för att utveckla en flödesmatchande handlings-expert, och efterträning för uppgiftsspecifik förfining. Detta strukturerade tillvägagångssätt säkerställer att modellen behåller bred semantisk kunskap samtidigt som den tillägnar sig de specialiserade motoriska färdigheter som krävs för precisionsmanipulation och navigering i miljön inom området för fysisk AI.

Under förträningsfasen genomför forskarna storskalig träning på Vision-Language-modellen (VLM) med hjälp av webbtext, kördata och interaktionsloggar. Detta steg är avgörande för att förvärva semantisk kunskap tillsammans med fysisk intuition. Efter detta introducerar mellanträningen en flödesmatchande handlings-expert. Denna komponent är byggd ovanpå VLM:en för att förena resonerande på hög nivå med de detaljerade kraven för robotkontroll. Slutligen innebär efterträningsfasen förstärkningsinlärning och finjustering i specifika miljöer, såsom riktmärket RoboChallenge, för att säkerställa att modellen kan hantera specialistuppgifter med hög tillförlitlighet.

Kan DM0 användas för både robotmanipulation och navigering?

DM0 är utformad för att fungera som en generalistmodell kapabel till både robotmanipulation och navigering genom att förena dessa uppgifter inom ett enda ramverk. Den uppnår toppresultat på riktmärket Table30 för manipulation, samtidigt som den uppvisar robust rumslig Chain-of-Thought (CoT), vilket gör att den kan navigera genom miljöer och interagera med objekt som en del av ett kontinuerligt arbetsflöde.

Historiskt sett har robotiserade system fungerat i silor: en modell hanterar förflyttning från punkt A till punkt B (navigering), medan en annan hanterar att plocka upp ett objekt (manipulation). DM0 bryter dessa silor genom att behandla båda som förkroppsligade handlingar. Denna förening drivs av heterogen data, vilket ger modellen exempel på både övergripande miljöförflyttning och finmotorisk öga-hand-koordination. I praktiska tillämpningar innebär detta att en DM0-driven robot skulle kunna navigera i ett kök för att hitta en specifik frukt och sedan precist arrangera den i en skål, samtidigt som den bibehåller ett övergripande målorienterat fokus och hanterar den fysiska nivån i varje steg.

Tekniska genombrott: Den flödesmatchande handlings-experten

Den flödesmatchande handlings-experten är en specialiserad arkitektonisk komponent som gör det möjligt för DM0 att förutsäga exakta motoriska banor genom att mappa visuella och språkliga indata till fysiska handlingar. Denna mekanism använder en hybrid träningsstrategi där gradienter från handlingsuppgifter inte bakåtpropageras till kärn-VLM:en, vilket förhindrar "katastrofal glömska" av generella resonemangsförmågor medan roboten lär sig specifika färdigheter inom fysisk AI.

  • Gradientisolering: Genom att förhindra att handlingsrelaterade gradienter ändrar VLM:en, säkerställer DM0 att lärandet av hur man skruvar i en skruv inte försämrar modellens förmåga att förstå komplexa verbala instruktioner.
  • Kroppslig rumslig stödstruktur: Denna strategi använder Chain-of-Thought-resonemang för att begränsa "handlingslösningsutrymmet", vilket hjälper roboten att planera sina rörelser logiskt innan de utförs.
  • Effektivitetsvinster: Det flödesmatchande tillvägagångssättet möjliggör snabbare konvergens under träning jämfört med traditionella diffusionsbaserade modeller, vilket gör det mer genomförbart att träna på massiva datamängder.

Framtida implikationer för fysisk AI och RoboChallenge-prestanda

DM0:s prestanda på riktmärket RoboChallenge visar dess potential att bli standarden för generella hushålls- och industrirobotar. Genom att uppnå toppresultat i både specialist- och generalistmiljöer på Table30, bevisar DM0 att embodied-native modeller kan hantera ett brett spektrum av uppgifter – från att koppla in kablar till att sortera föremål – med minimal uppgiftsspecifik programmering.

När fältet rör sig mot rumslig intelligens erbjuder DM0-ramverket en tydlig färdplan. Förmågan att lära från olika interaktionsloggar innebär att i takt med att fler robotar kommer ut i världen, kommer datapoolen för modeller som DM0 att växa exponentiellt. Detta skapar en god cirkel där fysisk AI blir allt skickligare på att förstå nyanserna i den mänskliga världen. Framgången för Hao Liu, Bin Xie och Yi Yang med att skapa en modell som "tänker" i termer av fysisk handling tyder på att nästa generation av robotar inte bara kommer att programmeras för att utföra uppgifter, utan kommer att ha en inneboende förståelse för de miljöer de lever i.

James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Readers Questions Answered

Q Hur skiljer sig DM0 från traditionella vision-language-action-modeller?
A DM0 skiljer sig från traditionella vision-language-action-modeller (VLA) genom att vara en kroppsligt förankrad (embodied-native) modell som integrerar inneboende fysiska förhandskunskaper från flera källor, snarare än att anpassa rent semantiska vision-language-modeller (VLM) som finjusterats på robotdata. Den använder en hybrid träningsstrategi där en flödesmatchande (flow-matching) action-expert byggs ovanpå VLM-modellen, där gradienter från kroppsligt förankrad data inte sprids bakåt till VLM-modellen för att bevara generaliserade representationer, samtidigt som VLM-träning på icke-kroppslig data tillåts. Denna design möjliggör överlägsen prestanda i komplexa manipuleringsuppgifter jämfört med baslinjer som π0.
Q Kan DM0 användas för både robotmanipulering och navigering?
A Ja, DM0 kan användas för både robotmanipulering och navigering. Den presterar utmärkt i utvärderingsmätningar för manipulering som Table30 och uppnår banbrytande resultat i uppgifter som att arrangera frukter och ansluta kablar. Den generaliserar också effektivt till mobila sammanhang och uppvisar starkt logiskt resonemang (chain-of-thought) samt potential för tillämpningar med mobila agenter.
Q Vad är DM0:s trestegsprocess: förträning, mitträning och efterträning?
A Sökresultaten beskriver inte uttryckligen en trestegsprocess med förträning, mitträning och efterträning för DM0. Istället lyfter de fram en hybrid träningsstrategi som involverar gemensam träning på storskaliga datamängder, byggandet av en flödesmatchande action-expert ovanpå en VLM, samt selektiv gradient-backpropagation för att balansera resonemang och kontroll. Inferens stöder direkt förutsägelse av handlingar eller resonerande textuella utdata som styr handlingar.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!