**Fusionen** av videodiffusionsteknik och robotstyrning har lett till ett stort genombrott i hur artificiell intelligens interagerar med den fysiska världen. Medan traditionella Vision-Language-Action (VLA)-modeller är skickliga på att följa språkliga kommandon, misslyckas de ofta när de ställs inför den oförutsägbara fysiken i nya miljöer. För att lösa detta har forskarna Kyungmin Lee, Jing Wang och Jan Kautz introducerat DreamZero, en World Action Model (WAM) som gör det möjligt för robotar att förutsäga de visuella och fysiska konsekvenserna av sina handlingar. Genom att behandla video som en tät representation av miljöns utveckling ger denna nya arkitektur robotar en form av fysisk intuition som gör att de kan anpassa sig till osedda scenarier med oöverträffad noggrannhet.
Begränsningen för semantisk AI i fysiska miljöer
Modern robotik förlitar sig ofta på semantisk generalisering, vilket hjälper en robot att identifiera objekt men inte översätts till framgångsrik fysisk rörelse i nya miljöer. Vision-Language-Action (VLA)-modeller utmärker sig vanligtvis i att förstå "vad" ett objekt är, men de kämpar med "hur" man manipulerar det när belysning, orientering eller miljödynamik förändras. Denna klyfta beror på att dessa modeller saknar en World Model – en intern simulering som förstår det kausala sambandet mellan ett motoriskt kommando och dess fysiska resultat.
Forskning tyder på att när en robot går in i en ny miljö, gör bristen på fysisk förankring att autoregressiva fel ackumuleras. Små misstag i en uppgifts inledande fas leder till ett totalt avbrott i utförandet eftersom modellen inte kan "se" det framtida tillståndet i den värld den skapar. För att hantera detta skiftar DreamZero paradigmet från enkel handlingsprediktion till en omfattande modellering av fysisk dynamik, vilket säkerställer att roboten förstår den visuella och taktila utvecklingen av sitt arbetsområde under varje millisekund av en uppgift.
Hur skiljer sig World Action Models från Vision-Language-Action (VLA)-modeller?
World Action Models (WAMs), såsom DreamZero, skiljer sig från Vision-Language-Action (VLA)-modeller genom att integrera världsmodellering som förutsäger framtida visuella tillstånd. Medan VLA-modeller mappar indata direkt till handlingar, uppnår WAM:er en fysisk fusion av videogenerering och handlingsprediktion. Detta gör att modellen kan internalisera den underliggande fysiken och förutsäga de visuella konsekvenserna av sitt beteende innan den utför rörelser.
Till skillnad från standard-VLA-modeller, som ofta tränas på snäva, repetitiva demonstrationer, utnyttjar DreamZero en autoregressiv videodiffusionsmodell med 14 miljarder parametrar. Detta ramverk gör det möjligt för roboten att "föreställa sig" hur världen ska se ut när den utför en uppgift. Genom att gemensamt modellera video och handling lär sig World Action Model olika färdigheter från heterogena datakällor. Denna metod resulterar i en dubblerad förbättring av generaliseringen till nya uppgifter och miljöer jämfört med toppmoderna VLA-modeller i robotexperiment i verkliga miljöer.
Varför har traditionella AI-modeller svårt med okända fysiska rörelser?
Traditionella AI-modeller kämpar med okända fysiska rörelser eftersom de saknar en inneboende representation av miljödynamik och fysik. Dessa modeller förlitar sig vanligtvis på direkta mappningar från observation till handling som inte tar hänsyn till de kausala sambanden mellan rörelser och deras resultat. Avsaknaden av en prediktiv World Model leder till dålig prestanda och felspridning när modellen stöter på nya scenarier.
I praktiken innebär detta att en traditionell robot kan veta hur man plockar upp ett blått block i en laboratoriemiljö, men om blocket ersätts av en något tyngre röd sfär i ett rum med andra skuggor, misslyckas modellens handlingssekvens. Detta misslyckande inträffar eftersom modellen inte har någon "intuition" gällande miljöns densitet eller hur dess egna griparmar interagerar med olika ytor. DreamZero övervinner detta genom att använda videodiffusionsmodeller som grund och behandla den visuella världen som ett förutsägbart flöde av fysiska händelser snarare än en serie statiska, isolerade bilder.
DreamZero: Arkitekturen bakom en World Action Model
Kärnarkitekturen i DreamZero är byggd på en förtränad videodiffusionsmodell som fungerar som en generativ världssimulator. Denna modell förutsäger inte bara nästa robotledsrörelse; den förutsäger nästa antal bildrutor av vad robotens kameror kommer att se. Genom att anpassa dessa visuella prediktioner med low-level action tokens säkerställer modellen att dess rörelser är fysiskt konsekventa med lagarna i den värld den observerar.
- Gemensam modellering: Samtidig prediktion av videobilder och robotrörelser för att synkronisera fysisk förståelse med motoriskt utförande.
- Tät representation: Användning av video som en primär datakälla för att fånga subtila fysiska nyanser som friktion, gravitation och objektpermanens.
- Heterogena data: Inlärning från ett brett spektrum av robotdata och videor på människor snarare än att förlita sig på tusentals identiska laboratoriedemonstrationer.
Kan DreamZero lära sig att utföra uppgifter genom att titta på människor?
DreamZero kan lära sig komplexa uppgifter genom att titta på videodemonstrationer av människor tack vare dess robusta cross-embodiment-förmåga. Genom att analysera mänsklig rörelse som en tät videorepresentation uppnår modellen en fusion av människocentrerad visuell data och robotstyrning. Detta gör det möjligt för systemet att extrahera fysiska rörelsemönster och applicera dem på sin egen robothårdvara med endast 10 till 20 minuters demonstrationsdata.
Denna förmåga, känd som cross-embodiment transfer, representerar ett stort steg mot robotik för allmänna ändamål. Vid tester gav videodemonstrationer av människor en relativ förbättring på över 42 % för prestanda i osedda uppgifter. Detta tyder på att modellen inte bara imiterar pixlar utan förstår den grundläggande fysiken i uppgiften som utförs. Oavsett om demonstranten är en mänsklig hand eller en annan robotarm, identifierar DreamZero målet och de fysiska steg som krävs för att nå det.
Realtidsstyrning och systemoptimering
Att köra en modell med 14 miljarder parametrar i realtid är en betydande teknisk utmaning som DreamZero övervinner genom omfattande modell- och systemoptimeringar. Traditionella storskaliga modeller är ofta för långsamma för de responstider på millisekundnivå som krävs inom robotik. Forskarna uppnådde dock 7 Hz closed-loop-reglering, vilket är tillräckligt snabbt för att roboten ska kunna reagera på miljöförändringar när de sker.
Dessa optimeringar överbryggar klyftan mellan högnivåresonemang – som att "göra en smörgås" – och de finkorniga motorikkommandon som krävs för att utföra uppgiften. Genom att köra den autoregressiva videodiffusionsmodellen effektivt bibehåller DreamZero en konstant feedbackloop. Om ett objekt slinter eller miljön förändras mitt i en rörelse, uppdaterar modellen sin visuella prediktion och sin handlingsplan samtidigt, vilket bibehåller stabilitet på ett sätt som tidigare storskaliga modeller inte kunde.
Framtiden för zero-shot-generalisering inom robotik
Det kanske mest överraskande resultatet av forskningen är DreamZeros förmåga till few-shot-anpassning av fysiskt utförande. Modellen kan överföra sina inlärda färdigheter till helt ny robothårdvara med endast 30 minuters "lek-data". Detta innebär att en modell som tränats på en typ av industriarm snabbt kan anpassas till en annan modell eller till och med en humanoid robot utan att förlora sin zero-shot-generalisering.
När robotikområdet rör sig mot mer komplexa och oplanerade miljöer kommer fusionen av generativa videomodeller och handlingsprediktion sannolikt att bli standard. Arbetet från NVIDIA Research och författarna visar att World Action Models tillhandahåller det nödvändiga "fysiska sunda förnuftet" som har saknats i AI. Framtida iterationer av denna teknik kan leda till robotar som kan gå in i vilket hem eller vilken fabrik som helst och börja utföra uppgifter säkert och effektivt efter bara några minuters observation.
Comments
No comments yet. Be the first!