Fizyczna AI (Physical AI) osiągnęła kluczowy punkt zwrotny wraz z wprowadzeniem DM0 – szkieletu wizja-język-działanie (VLA), który od samego początku integruje prawa fizyki i rozumowanie przestrzenne. W przeciwieństwie do poprzednich modeli, które adaptowano z tekstów i obrazów internetowych, Hao Liu, Bin Xie i Yi Yang opracowali system traktujący interakcję fizyczną jako główne źródło danych, a nie jako element dodawany na etapie dostrajania. To „natywnie ucieleśnione” podejście pozwala robotom poruszać się w złożonych środowiskach i manipulować obiektami z precyzją odzwierciedlającą procesy biologicznego uczenia się, niwelując długotrwałą lukę między cyfrowym rozumowaniem a realizacją zadań w świecie rzeczywistym.
Czym DM0 różni się od tradycyjnych modeli wizja-język-działanie?
DM0 różni się od tradycyjnych modeli VLA poprzez włączenie wewnętrznych, wieloźródłowych fizycznych danych a priori już na samym początku treningu, zamiast polegania na dostrajaniu modeli wstępnie wytrenowanych na danych internetowych. Dzięki zastosowaniu hybrydowej strategii treningowej oraz eksperta ds. działań flow-matching, DM0 zachowuje uogólnione reprezentacje semantyczne, opanowując jednocześnie sterowanie wysokiej częstotliwości wymagane w złożonych zadaniach robotycznych, co pozwala mu osiągać wyniki lepsze niż benchmarki takie jak π0.
Tradycyjna robotyczna AI często ma trudności, ponieważ bazuje na modelach szkolonych głównie na tekstach internetowych, a nie na świecie fizycznym. Te modele typu „internet-first” nie posiadają wrodzonego zrozumienia inteligencji przestrzennej, co prowadzi do „halucynacji” w ruchu fizycznym – robot może rozumieć polecenie „podnieś kubek”, ale nie potrafi pojąć momentu obrotowego ani trajektorii niezbędnej do wykonania tej czynności. DM0 jest natomiast modelem natywnie ucieleśnionym. Oznacza to, że został zbudowany tak, aby rozumieć fizyczne osadzenie – relację między bodźcami wizualnymi, komendami językowymi a sygnałami motorycznymi – jako jeden, spójny język działania.
Koncepcja natywnie ucieleśnionej inteligencji w Fizycznej AI
Natywnie ucieleśniona inteligencja odnosi się do paradygmatu, w którym model AI uczy się fundamentalnych praw fizyki i relacji przestrzennych równolegle z semantycznymi danymi językowymi. Podejście to wykracza poza pasywną obserwację, gdzie model jedynie ogląda filmy lub czyta opisy, w stronę aktywnego ugruntowania fizycznego. Trenując na heterogenicznych źródłach danych, w tym logach z autonomicznej jazdy i danych z interakcji robotycznych, DM0 wypracowuje „zdrowy rozsądek” dotyczący świata fizycznego, którego modele oparte wyłącznie na internecie nie są w stanie powtórzyć.
Zespół badawczy twierdzi, że dostrajanie modeli internetowych pod kątem fizyki jest niewystarczające w przypadku złożonych zadań, ponieważ ich podstawowa architektura nie jest zoptymalizowana pod kątem sterowania niskopoziomowego. DM0 rozwiązuje ten problem, integrując wiedzę przestrzenną z różnorodnych korpusów. Na przykład dzięki uwzględnieniu scenariuszy autonomicznej jazdy model uczy się dynamiki ruchu i unikania przeszkód na szeroką skalę. Te fizyczne dane a priori działają jak rusztowanie, pozwalając modelowi przejść od rozumienia obrazu 2D do operowania w przestrzeni 3D z poczuciem głębi i konsekwencji działań.
Czym jest trzystopniowy proces DM0: Pre-trening, Trening pośredni i Post-trening?
Proces DM0 składa się ze zunifikowanego pre-treningu na zróżnicowanych korpusach internetowych i fizycznych, treningu pośredniego (Mid-Training) w celu opracowania eksperta ds. działań flow-matching oraz post-treningu służącego do doprecyzowania konkretnych zadań. To ustrukturyzowane podejście gwarantuje, że model zachowuje szeroką wiedzę semantyczną, zdobywając jednocześnie specjalistyczne umiejętności motoryczne niezbędne do precyzyjnej manipulacji i nawigacji środowiskowej w domenie Fizycznej AI.
Podczas fazy pre-treningu naukowcy prowadzą szeroko zakrojone szkolenie modelu wizyjno-językowego (VLM), wykorzystując tekst internetowy, dane z jazdy i logi interakcji. Ten etap jest krytyczny dla nabycia wiedzy semantycznej wraz z fizyczną intuicją. Następnie etap treningu pośredniego wprowadza eksperta ds. działań flow-matching. Komponent ten jest zbudowany na bazie VLM, aby pogodzić rozumowanie wysokiego poziomu z ziarnistymi wymaganiami sterowania robotem. Ostatnia faza, post-trening, obejmuje uczenie ze wzmocnieniem i dostrajanie w konkretnych środowiskach, takich jak benchmark RoboChallenge, aby zapewnić wysoką niezawodność modelu w zadaniach specjalistycznych.
Czy DM0 może być wykorzystywany zarówno do manipulacji robotycznej, jak i nawigacji?
DM0 został zaprojektowany jako model ogólnego przeznaczenia, zdolny zarówno do manipulacji robotycznej, jak i nawigacji, poprzez zunifikowanie tych zadań w ramach jednej struktury. Osiąga on najnowocześniejsze wyniki w benchmarku Table30 w zakresie manipulacji, wykazując jednocześnie solidne rozumowanie oparte na przestrzennym łańcuchu myśli (CoT), co pozwala mu nawigować w otoczeniu i wchodzić w interakcje z obiektami w ramach ciągłego przepływu pracy.
Historycznie systemy robotyczne działały w izolacji: jeden model odpowiadał za przemieszczanie się z punktu A do punktu B (nawigacja), podczas gdy inny zajmował się podnoszeniem przedmiotu (manipulacja). DM0 przełamuje te bariery, traktując oba procesy jako ucieleśnione działania. Ta unifikacja jest zasilana przez heterogeniczne dane, które dostarczają modelowi przykładów zarówno szerokiego ruchu w środowisku, jak i precyzyjnej koordynacji wzrokowo-ruchowej. W praktycznych zastosowaniach oznacza to, że robot napędzany przez DM0 mógłby nawigować po kuchni w poszukiwaniu konkretnego owocu, a następnie precyzyjnie ułożyć go w misce, utrzymując koncentrację na nadrzędnym celu przy jednoczesnym zarządzaniu fizyką każdego kroku na niskim poziomie.
Przełomy techniczne: Ekspert ds. działań Flow-Matching
Ekspert ds. działań flow-matching to wyspecjalizowany komponent architektury, który pozwala DM0 przewidywać precyzyjne trajektorie motoryczne poprzez mapowanie danych wizualnych i lingwistycznych na działania fizyczne. Mechanizm ten wykorzystuje hybrydową strategię treningową, w której gradienty z zadań związanych z działaniem nie są wstecznie propagowane do rdzenia VLM. Zapobiega to „katastroficznemu zapominaniu” ogólnych zdolności rozumowania podczas nauki specyficznych umiejętności z zakresu Fizycznej AI.
- Izolacja gradientu: Zapobiegając modyfikowaniu VLM przez gradienty związane z działaniem, DM0 gwarantuje, że nauka wkręcania śruby nie pogorszy zdolności modelu do rozumienia złożonych instrukcji słownych.
- Ucieleśnione rusztowanie przestrzenne: Strategia ta wykorzystuje rozumowanie typu łańcuch myśli (Chain-of-Thought) do ograniczenia „przestrzeni rozwiązań działania”, pomagając robotowi logicznie zaplanować ruchy przed ich wykonaniem.
- Wzrost wydajności: Podejście flow-matching pozwala na szybszą zbieżność podczas treningu w porównaniu do tradycyjnych modeli dyfuzyjnych, co ułatwia szkolenie na ogromnych zbiorach danych.
Przyszłe implikacje dla Fizycznej AI i wydajność w RoboChallenge
Wyniki DM0 w benchmarku RoboChallenge demonstrują jego potencjał do stania się standardem dla robotów domowych i przemysłowych ogólnego przeznaczenia. Osiągając najnowocześniejsze rezultaty zarówno w ustawieniach specjalistycznych, jak i ogólnych na Table30, DM0 udowadnia, że modele natywnie ucieleśnione mogą radzić sobie z szeroką gamą zadań – od podłączania kabli po sortowanie przedmiotów – przy minimalnym programowaniu specyficznym dla danego zadania.
W miarę jak dziedzina ta zmierza w stronę inteligencji przestrzennej, szkielet DM0 wyznacza jasną drogę rozwoju. Zdolność do uczenia się ze zróżnicowanych logów interakcji oznacza, że wraz z pojawianiem się większej liczby robotów, pula danych dla modeli takich jak DM0 będzie rosła wykładniczo. Tworzy to samonapędzający się cykl, w którym Fizyczna AI staje się coraz bieglejsza w rozumieniu niuansów ludzkiego świata. Sukces Hao Liu, Bin Xie i Yi Yang w stworzeniu modelu, który „myśli” w kategoriach fizycznego działania, sugeruje, że następna generacja robotów nie będzie tylko programowana do wykonywania zadań, ale będzie posiadać wrodzone zrozumienie środowisk, w których przebywa.
Comments
No comments yet. Be the first!