World Action Models kontra VLA: Przewidywanie praw fizyki

Breaking News Technologia
Close-up of a sleek robotic hand reaching toward a floating, rippling sphere of light against a dark background.
4K Quality
Podczas gdy obecne modele Vision-Language-Action (VLA) doskonale radzą sobie z rozumieniem poleceń, często mają trudności z poruszaniem się w nieprzewidywalnym fizycznie otoczeniu. DreamZero wprowadza zwrot w stronę World Action Models, wykorzystując dyfuzję wideo, aby pomóc robotom przewidywać wizualne i fizyczne konsekwencje ich działań w czasie rzeczywistym.

**Fuzja** technologii dyfuzji wideo i sterowania robotami doprowadziła do znaczącego przełomu w sposobie, w jaki sztuczna inteligencja wchodzi w interakcje ze światem fizycznym. Podczas gdy tradycyjne modele Vision-Language-Action (VLA) sprawnie wykonują polecenia językowe, często zawodzą w obliczu nieprzewidywalnej fizyki nowych środowisk. Aby rozwiązać ten problem, badacze Kyungmin Lee, Jing Wang i Jan Kautz przedstawili DreamZero – model typu World Action Model (WAM), który pozwala robotom przewidywać wizualne i fizyczne konsekwencje ich działań. Poprzez traktowanie wideo jako gęstej reprezentacji ewolucji środowiska, ta nowa architektura zapewnia robotom formę fizycznej intuicji, która umożliwia im adaptację do nieznanych scenariuszy z niespotykaną dotąd dokładnością.

Ograniczenia semantycznej AI w przestrzeniach fizycznych

Współczesna robotyka często opiera się na generalizacji semantycznej, która pomaga robotowi identyfikować obiekty, ale nie przekłada się na skuteczne poruszanie się w nowych warunkach fizycznych. Modele Vision-Language-Action (VLA) zazwyczaj doskonale rozumieją, „czym” jest dany obiekt, ale mają trudności z tym, „jak” nim manipulować, gdy zmienia się oświetlenie, orientacja lub dynamika otoczenia. Luka ta istnieje, ponieważ modelom tym brakuje modelu świata (World Model) — wewnętrznej symulacji, która rozumie związek przyczynowo-skutkowy między komendą silnika a jej fizycznym rezultatem.

Badania wskazują, że gdy robot trafia do nowego środowiska, brak fizycznego ugruntowania powoduje nawarstwianie się błędów autoregresyjnych. Małe pomyłki w początkowej fazie zadania prowadzą do całkowitego załamania jego wykonania, ponieważ model nie potrafi „zobaczyć” przyszłego stanu świata, który kreuje. Aby temu zaradzić, DreamZero zmienia paradygmat z prostego przewidywania działań na kompleksowe modelowanie dynamiki fizycznej, zapewniając, że robot rozumie wizualną i dotykową ewolucję swojej przestrzeni roboczej w każdej milisekundzie zadania.

Czym różnią się modele World Action Models od modeli Vision-Language-Action (VLA)?

Modele World Action Models (WAMs), takie jak DreamZero, różnią się od modeli Vision-Language-Action (VLA) tym, że integrują modelowanie świata, które przewiduje przyszłe stany wizualne. Podczas gdy modele VLA mapują dane wejściowe bezpośrednio na działania, modele WAM osiągają fizyczną fuzję generowania wideo i przewidywania akcji. Pozwala to modelowi zinternalizować podstawowe prawa fizyki i przewidzieć wizualne konsekwencje swojego zachowania jeszcze przed wykonaniem ruchów.

W przeciwieństwie do standardowych modeli VLA, które są często trenowane na wąskich, powtarzalnych demonstracjach, DreamZero wykorzystuje autoregresyjny model dyfuzji wideo o 14 miliardach parametrów (14B). Ten szkielet pozwala robotowi „wyobrazić sobie”, jak powinien wyglądać świat podczas wykonywania zadania. Poprzez wspólne modelowanie wideo i akcji, World Action Model uczy się różnorodnych umiejętności z heterogenicznych źródeł danych. Metodologia ta skutkuje dwukrotną poprawą generalizacji w nowych zadaniach i środowiskach w porównaniu do najnowocześniejszych modeli VLA w eksperymentach z robotami w świecie rzeczywistym.

Dlaczego tradycyjne modele AI mają trudności z nieznanymi ruchami fizycznymi?

Tradycyjne modele AI borykają się z nieznanymi ruchami fizycznymi, ponieważ brakuje im wrodzonej reprezentacji dynamiki środowiska i fizyki. Modele te zazwyczaj polegają na bezpośrednim mapowaniu obserwacji na działania, co nie uwzględnia związków przyczynowych między ruchami a ich wynikami. Brak predykcyjnego modelu świata prowadzi do słabej wydajności i propagacji błędów, gdy model napotyka nowe scenariusze.

W praktyce oznacza to, że tradycyjny robot może wiedzieć, jak podnieść niebieski klockek w laboratorium, ale jeśli klocek zostanie zastąpiony nieco cięższą czerwoną kulą w pomieszczeniu o innym zacienieniu, sekwencja działań modelu zawiedzie. Dzieje się tak, ponieważ model nie posiada „intuicji” dotyczącej gęstości środowiska ani tego, jak jego własne chwytaki wchodzą w interakcję z różnymi powierzchniami. DreamZero przezwycięża to, wykorzystując szkielety dyfuzji wideo jako fundament, traktując świat wizualny jako przewidywalny przepływ zdarzeń fizycznych, a nie serię statycznych, rozłącznych obrazów.

DreamZero: Architektura modelu World Action Model

Podstawowa architektura DreamZero opiera się na wstępnie wytrenowanym szkielecie dyfuzji wideo, który funkcjonuje jako generatywny symulator świata. Model ten nie tylko przewiduje kolejny ruch przegubu robota; przewiduje on kilka kolejnych klatek tego, co zobaczą kamery robota. Poprzez dopasowanie tych wizualnych prognoz do niskopoziomowych tokenów akcji, model zapewnia, że jego ruchy są fizycznie spójne z prawami świata, który obserwuje.

  • Wspólne modelowanie: Jednoczesne przewidywanie klatek wideo i działań robota w celu synchronizacji fizycznego zrozumienia z wykonaniem motorycznym.
  • Gęsta reprezentacja: Wykorzystanie wideo jako głównego źródła danych do uchwycenia subtelnych niuansów fizycznych, takich jak tarcie, grawitacja i trwałość obiektu.
  • Heterogeniczne dane: Nauka na podstawie szerokiej gamy danych z robotów i filmów z udziałem ludzi, zamiast polegania na tysiącach identycznych demonstracji laboratoryjnych.

Czy DreamZero może nauczyć się wykonywania zadań, obserwując ludzi?

DreamZero może uczyć się złożonych zadań poprzez obserwację ludzkich demonstracji wideo dzięki swoim solidnym zdolnościom do transferu międzyucieleśnionego (cross-embodiment). Analizując ruch człowieka jako gęstą reprezentację wideo, model osiąga fuzję danych wizualnych skoncentrowanych na człowieku i sterowania robotem. Pozwala to systemowi wyodrębnić wzorce ruchu fizycznego i zastosować je do własnego sprzętu zaledwie po 10–20 minutach danych demonstracyjnych.

Ta zdolność, znana jako transfer międzyucieleśniony, stanowi duży krok w kierunku robotyki ogólnego przeznaczenia (General Purpose Robotics). W testach demonstracje wideo z udziałem ludzi przyniosły względną poprawę o ponad 42% w wykonywaniu nieznanych zadań. Sugeruje to, że model nie tylko naśladuje piksele, ale rozumie fundamentalną fizykę wykonywanego zadania. Niezależnie od tego, czy demonstrującym jest ludzka ręka, czy inne ramię robota, DreamZero identyfikuje cel i fizyczne kroki wymagane do jego osiągnięcia.

Sterowanie w czasie rzeczywistym i optymalizacja systemu

Uruchomienie modelu o 14 miliardach parametrów (14B) w czasie rzeczywistym stanowi znaczące wyzwanie techniczne, które DreamZero pokonuje dzięki rozległym optymalizacjom modelu i systemu. Tradycyjne modele o dużej skali są często zbyt powolne dla reakcji na poziomie milisekund wymaganych w robotyce. Jednak badaczom udało się osiągnąć 7Hz sterowanie w pętli zamkniętej, co jest wystarczająco szybkie, aby robot mógł reagować na zmiany w środowisku na bieżąco.

Optymalizacje te wypełniają lukę między rozumowaniem wysokiego poziomu — takim jak „zrób kanapkę” — a szczegółowymi poleceniami motorycznymi wymaganymi do wykonania zadania. Dzięki wydajnemu uruchomieniu modelu autoregresyjnej dyfuzji wideo, DreamZero utrzymuje stałą pętlę sprzężenia zwrotnego. Jeśli obiekt się wyślizgnie lub środowisko zmieni się w trakcie działania, model jednocześnie aktualizuje swoją wizualną prognozę i plan działania, zachowując stabilność w sposób, w jaki poprzednie modele o dużej skali nie potrafiły.

Przyszłość robotycznej generalizacji typu zero-shot

Być może najbardziej zaskakującym odkryciem badań jest zdolność DreamZero do adaptacji ucieleśnienia typu few-shot. Model może przenieść nabyte umiejętności na całkowicie nowy sprzęt robotyczny, dysponując zaledwie 30 minutami danych z fazy swobodnej interakcji („play data”). Oznacza to, że model wytrenowany na jednym typie ramienia przemysłowego można szybko zaadaptować do innego modelu, a nawet robota humanoidalnego, bez utraty zdolności do generalizacji typu zero-shot.

W miarę jak robotyka zmierza w stronę bardziej złożonych i nieskryptowanych środowisk, fuzja generatywnych modeli wideo i przewidywania akcji prawdopodobnie stanie się standardem. Prace NVIDIA Research i autorów pokazują, że modele World Action Models zapewniają niezbędny „fizyczny zdrowy rozsądek”, którego brakowało sztucznej inteligencji. Przyszłe iteracje tej technologii mogą doprowadzić do powstania robotów, które będą mogły wejść do dowolnego domu lub fabryki i zacząć bezpiecznie i efektywnie wykonywać zadania już po kilku minutach obserwacji.

James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Readers Questions Answered

Q Czym modele World Action Models różnią się od modeli Vision-Language-Action (VLA)?
A Modele World Action Models, takie jak DreamZero, integrują modele świata, które przewidują przyszłe obrazy i uczą się podstawowych praw fizyki, czym różnią się od modeli Vision-Language-Action (VLA), które bezpośrednio mapują dane wizualne i językowe na działania robotów bez wyraźnej symulacji świata. Modele VLA koncentrują się na generowaniu akcji w trybie end-to-end na podstawie obserwacji i instrukcji, podczas gdy World Action Models, takie jak WorldVLA, łączą przewidywanie działań z modelowaniem świata w celu wzajemnego wzmocnienia i lepszej intuicji fizycznej. Ta unifikacja rozwiązuje ograniczenia modeli VLA w zakresie generalizacji do nieznanej dynamiki.
Q Czy DreamZero może nauczyć się wykonywania zadań poprzez obserwację ludzi?
A Tak, DreamZero może uczyć się zadań poprzez obserwację ludzi, ponieważ jego modele World Action Models są trenowane na demonstracjach obejmujących dane z teleoperacji wykonywanej przez ludzi, co umożliwia naśladowanie ruchów fizycznych. Podobnie jak modele VLA, wykorzystuje on obserwacje wizualne z działań ludzi do generowania odpowiednich akcji, wzmocnionych przez przewidywania skutków fizycznych generowane przez model świata.
Q Dlaczego tradycyjne modele AI mają trudności z nieznanymi ruchami fizycznymi?
A Tradycyjne modele AI zmagają się z nieznanymi ruchami fizycznymi z powodu ograniczonej generalizacji w autoregresyjnym przewidywaniu akcji, gdzie błędy przenoszą się z początkowych działań na kolejne, przy jednoczesnym braku zrozumienia podstawowych praw fizyki. Polegają one na bezpośrednim mapowaniu obserwacji na działania bez udziału modeli świata, które symulowałyby i przewidywały dynamikę środowiska, co prowadzi do niskiej wydajności w nowych scenariuszach.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!