DM0 ridefinisce l'IA fisica attraverso l'addestramento embodied

Breaking News Technology
Close-up of a sleek robotic hand with intricate sensors reaching toward a metallic object in a dramatic high-tech setting.
4K Quality
L'intelligenza artificiale robotica tradizionale presenta spesso dei limiti, essendo basata su modelli addestrati principalmente su testi tratti dal web anziché sul mondo reale. Il nuovo framework DM0 inverte questa tendenza, istruendo un modello Vision-Language-Action su basi fisiche sin dalle prime fasi e consentendo ai robot di navigare e ragionare simultaneamente.

L'IA fisica ha raggiunto un punto di svolta cruciale con l'introduzione di DM0, un framework vision-language-action (VLA) che integra leggi fisiche e ragionamento spaziale fin dalla sua concezione. A differenza dei modelli precedenti, adattati da testi e immagini provenienti da Internet, Hao Liu, Bin Xie e Yi Yang hanno sviluppato un sistema che tratta l'interazione fisica come una fonte di dati primaria piuttosto che come un'aggiunta successiva in fase di fine-tuning. Questo approccio "embodied-native" consente ai robot di navigare in ambienti complessi e manipolare oggetti con un livello di precisione che rispecchia l'apprendimento biologico, colmando il divario storico tra il ragionamento digitale e l'esecuzione nel mondo reale.

In cosa differisce DM0 dai modelli vision-language-action tradizionali?

DM0 si differenzia dai tradizionali modelli VLA incorporando prior fisici intrinseci multi-sorgente fin dall'inizio dell'addestramento, invece di fare affidamento sul fine-tuning di modelli pre-addestrati su Internet. Utilizzando una strategia di addestramento ibrida e un esperto di azioni basato su flow-matching, DM0 preserva le rappresentazioni semantiche generalizzate e, allo stesso tempo, padroneggia il controllo ad alta frequenza richiesto per compiti robotici complessi, superando di fatto benchmark come π0.

L'IA robotica tradizionale spesso fatica perché adattata da modelli addestrati principalmente su testi web piuttosto che sul mondo fisico. Questi modelli "internet-first" mancano di una comprensione intrinseca dell'intelligenza spaziale, portando ad "allucinazioni" nel movimento fisico, dove un robot potrebbe comprendere il comando "prendi la tazza" ma fallire nel calcolare la coppia o la traiettoria necessarie per farlo. Al contrario, DM0 è un modello embodied-native. Ciò significa che è costruito per comprendere il grounding fisico — la relazione tra input visivo, comandi linguistici e output motorio — come un unico linguaggio d'azione unificato.

Il concetto di intelligenza Embodied-Native nell'IA fisica

L'intelligenza embodied-native si riferisce a un paradigma in cui un modello di IA apprende le leggi fondamentali della fisica e le relazioni spaziali simultaneamente ai dati linguistici semantici. Questo approccio va oltre l'osservazione passiva, in cui un modello si limita a guardare video o leggere descrizioni, per passare a un grounding fisico attivo. Addestrandosi su fonti di dati eterogenee, inclusi log di guida autonoma e dati di interazione robotica, DM0 sviluppa un "senso comune" per il mondo fisico che i modelli addestrati solo su Internet non possono replicare.

Il team di ricerca sostiene che il fine-tuning di modelli Internet per la fisica sia insufficiente per compiti complessi perché l'architettura sottostante non è ottimizzata per il controllo di basso livello. DM0 affronta questo problema integrando la conoscenza spaziale da diversi corpora. Ad esempio, includendo scenari di guida autonoma, il modello apprende la dinamica del movimento e l'evitamento degli ostacoli su larga scala. Questi prior fisici agiscono come un'impalcatura, consentendo al modello di passare dalla comprensione di un'immagine 2D all'operare in uno spazio 3D con il senso della profondità e delle conseguenze.

Qual è la pipeline a tre fasi di DM0: Pretraining, Mid-Training e Post-Training?

La pipeline di DM0 consiste in un pre-addestramento (Pretraining) unificato su diversi corpora web e fisici, un Mid-Training per sviluppare un esperto di azioni basato su flow-matching e un post-addestramento (Post-Training) per il perfezionamento specifico del compito. Questo approccio strutturato assicura che il modello mantenga una vasta conoscenza semantica acquisendo al contempo le abilità motorie specializzate necessarie per la manipolazione di precisione e la navigazione ambientale nel dominio della IA fisica.

Durante la fase di Pretraining, i ricercatori conducono un addestramento su larga scala sul Vision-Language Model (VLM) utilizzando testo web, dati di guida e log di interazione. Questa fase è fondamentale per acquisire conoscenza semantica insieme all'intuizione fisica. Successivamente, la fase di Mid-Training introduce un esperto di azioni basato su flow-matching. Questo componente è costruito sopra il VLM per conciliare il ragionamento di alto livello con i requisiti granulari del controllo robotico. Infine, la fase di Post-Training prevede l'apprendimento per rinforzo e il fine-tuning in ambienti specifici, come il benchmark RoboChallenge, per garantire che il modello possa gestire compiti specialistici con un'elevata affidabilità.

DM0 può essere utilizzato sia per la manipolazione che per la navigazione robotica?

DM0 è progettato per funzionare come un modello generalista capace sia di manipolazione che di navigazione robotica, unificando questi compiti all'interno di un unico framework. Ottiene prestazioni all'avanguardia sul benchmark Table30 per la manipolazione, dimostrando al contempo un robusto ragionamento spaziale Chain-of-Thought (CoT) che gli consente di navigare negli ambienti e interagire con gli oggetti come parte di un flusso di lavoro continuo.

Storicamente, i sistemi robotici hanno operato in compartimenti stagni: un modello gestisce lo spostamento dal punto A al punto B (navigazione), mentre un altro gestisce la raccolta di un oggetto (manipolazione). DM0 abbatte questi silos trattando entrambi come azioni embodied. Questa unificazione è alimentata da dati eterogenei, che forniscono al modello esempi sia di ampi movimenti ambientali che di coordinazione occhio-mano dettagliata. In applicazioni pratiche, ciò significa che un robot alimentato da DM0 potrebbe navigare in una cucina per trovare un frutto specifico e poi disporlo con precisione in una ciotola, mantenendo un focus orientato all'obiettivo di alto livello mentre gestisce la fisica di basso livello di ogni passaggio.

Svolte tecniche: l'esperto di azioni basato su Flow-Matching

L'esperto di azioni basato su flow-matching è un componente architettonico specializzato che consente a DM0 di prevedere traiettorie motorie precise mappando gli input visivi e linguistici su azioni fisiche. Questo meccanismo utilizza una strategia di addestramento ibrida in cui i gradienti dei compiti d'azione non vengono retropropagati al VLM centrale, prevenendo così l'"oblio catastrofico" delle capacità di ragionamento generale mentre il robot apprende abilità specifiche di IA fisica.

  • Isolamento del gradiente: Impedendo ai gradienti relativi all'azione di alterare il VLM, DM0 garantisce che imparare a girare una vite non degradi la capacità del modello di comprendere complesse istruzioni verbali.
  • Scaffolding spaziale embodied: Questa strategia utilizza il ragionamento Chain-of-Thought per limitare lo "spazio delle soluzioni d'azione", aiutando il robot a pianificare i propri movimenti logicamente prima di eseguirli.
  • Guadagni di efficienza: L'approccio flow-matching consente una convergenza più rapida durante l'addestramento rispetto ai modelli tradizionali basati sulla diffusione, rendendo più fattibile l'addestramento su set di dati massivi.

Implicazioni future per l'IA fisica e le prestazioni in RoboChallenge

Le prestazioni di DM0 sul benchmark RoboChallenge dimostrano il suo potenziale per diventare lo standard per i robot domestici e industriali di uso generale. Ottenendo risultati all'avanguardia in contesti sia Specialist che Generalist su Table30, DM0 dimostra che i modelli embodied-native possono gestire una vasta gamma di compiti — dal collegamento di cavi allo smistamento di oggetti — con una programmazione specifica minima.

Mentre il campo si muove verso l'intelligenza spaziale, il framework DM0 fornisce una chiara tabella di marcia. La capacità di apprendere da diversi log di interazione significa che, man mano che più robot entreranno nel mondo, il pool di dati per modelli come DM0 crescerà in modo esponenziale. Questo crea un circolo virtuoso in cui l'IA fisica diventa sempre più abile nel comprendere le sfumature del mondo umano. Il successo di Hao Liu, Bin Xie e Yi Yang nella creazione di un modello che "pensa" in termini di azione fisica suggerisce che la prossima generazione di robot non sarà solo programmata per eseguire compiti, ma possiederà una comprensione intrinseca degli ambienti in cui vive.

James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Readers Questions Answered

Q In che modo DM0 si differenzia dai tradizionali modelli vision-language-action?
A DM0 si differenzia dai tradizionali modelli vision-language-action (VLA) essendo un modello "embodied-native" che incorpora prior fisici intrinseci multi-sorgente, anziché adattare modelli vision-language (VLM) puramente semantici perfezionati su dati robotici. Impiega una strategia di addestramento ibrida in cui un esperto di azioni basato su flow-matching è costruito sopra il VLM, con gradienti provenienti da dati embodied che non vengono retropropagati al VLM per preservare le rappresentazioni generalizzate, consentendo al contempo l'addestramento del VLM su dati non embodied. Questo design permette prestazioni superiori in compiti di manipolazione complessi rispetto a baseline come π0.
Q DM0 può essere utilizzato sia per la manipolazione robotica che per la navigazione?
A Sì, DM0 può essere utilizzato sia per la manipolazione robotica che per la navigazione. Eccelle nei benchmark di manipolazione come Table30, ottenendo risultati allo stato dell'arte in compiti come la disposizione della frutta e il collegamento di cavi. Si generalizza inoltre efficacemente a contesti mobili, mostrando un solido ragionamento chain-of-thought e potenziale per applicazioni con agenti mobili.
Q Qual è la pipeline a tre stadi di DM0: Pre-training, Mid-training e Post-training?
A I risultati della ricerca non descrivono esplicitamente una pipeline a tre stadi di Pre-training, Mid-training e Post-training per DM0. Al contrario, evidenziano una strategia di addestramento ibrida che prevede l'addestramento congiunto su set di dati su larga scala, la creazione di un esperto di azioni basato su flow-matching su un VLM e la retropropagazione selettiva del gradiente per bilanciare ragionamento e controllo. L'inferenza supporta la previsione diretta dell'azione o output testuali ragionati che condizionano le azioni.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!