DM0 redéfinit l'IA physique par l'entraînement incarné

Breaking News Technology
Close-up of a sleek robotic hand with intricate sensors reaching toward a metallic object in a dramatic high-tech setting.
4K Quality
L'IA robotique traditionnelle éprouve souvent des difficultés car elle est adaptée de modèles entraînés principalement sur des textes d'Internet plutôt que sur le monde physique. Le nouveau cadre DM0 inverse cette tendance en entraînant un modèle Vision-Langage-Action sur des a priori physiques dès le départ, permettant aux robots de naviguer et de raisonner simultanément.

L'IA physique a atteint un tournant décisif avec l'introduction de DM0, un cadre de travail vision-langage-action (VLA) qui intègre les lois physiques et le raisonnement spatial dès sa conception. Contrairement aux modèles précédents adaptés à partir de textes et d'images d'Internet, Hao Liu, Bin Xie et Yi Yang ont développé un système qui traite l'interaction physique comme une source de données primaire plutôt que comme un ajustement après coup via un réglage fin. Cette approche « native incarnée » permet aux robots de naviguer dans des environnements complexes et de manipuler des objets avec un niveau de précision qui reflète l'apprentissage biologique, comblant ainsi le fossé de longue date entre le raisonnement numérique et l'exécution dans le monde réel.

En quoi DM0 diffère-t-il des modèles vision-langage-action traditionnels ?

DM0 se distingue des modèles VLA traditionnels en incorporant des connaissances physiques préalables (priors) multisources intrinsèques dès le début de l'entraînement, plutôt que de s'appuyer sur le réglage fin de modèles pré-entraînés sur Internet. En utilisant une stratégie d'entraînement hybride et un expert d'action par flow-matching, DM0 préserve les représentations sémantiques généralisées tout en maîtrisant le contrôle à haute fréquence requis pour des tâches robotiques complexes, surpassant ainsi des références comme π0.

L'IA robotique traditionnelle éprouve souvent des difficultés car elle est adaptée de modèles entraînés principalement sur du texte provenant d'Internet plutôt que sur le monde physique. Ces modèles de type « Internet-first » manquent d'une compréhension intrinsèque de l'intelligence spatiale, ce qui entraîne des « hallucinations » dans le mouvement physique où un robot pourrait comprendre la commande « ramasser la tasse » mais échouer à saisir le couple ou la trajectoire nécessaires pour y parvenir. En revanche, DM0 est un modèle natif incarné. Cela signifie qu'il est conçu pour comprendre l'ancrage physique — la relation entre l'entrée visuelle, les commandes linguistiques et la sortie motrice — comme un langage d'action unique et unifié.

Le concept d'intelligence native incarnée dans l'IA physique

L'intelligence native incarnée désigne un paradigme où un modèle d'IA apprend les lois fondamentales de la physique et les relations spatiales en même temps que les données linguistiques sémantiques. Cette approche va au-delà de l'observation passive, où un modèle se contente de regarder des vidéos ou de lire des descriptions, pour passer à un ancrage physique actif. En s'entraînant sur des sources de données hétérogènes, notamment des journaux de conduite autonome et des données d'interaction robotique, DM0 développe un « sens commun » du monde physique que les modèles limités à Internet ne peuvent pas reproduire.

L'équipe de recherche soutient que le réglage fin des modèles Internet pour la physique est insuffisant pour les tâches complexes car l'architecture sous-jacente n'est pas optimisée pour le contrôle de bas niveau. DM0 remédie à cela en intégrant des connaissances spatiales provenant de divers corpus. Par exemple, en incluant des scénarios de conduite autonome, le modèle apprend la dynamique du mouvement et l'évitement d'obstacles à grande échelle. Ces connaissances physiques préalables agissent comme un échafaudage, permettant au modèle de passer de la compréhension d'une image 2D au fonctionnement dans un espace 3D avec une notion de profondeur et de conséquence.

Quel est le pipeline en trois étapes de DM0 : Pré-entraînement, Entraînement intermédiaire et Post-entraînement ?

Le pipeline DM0 consiste en un pré-entraînement unifié sur divers corpus web et physiques, un entraînement intermédiaire (Mid-Training) pour développer un expert d'action par flow-matching, et un post-entraînement pour l'affinement spécifique aux tâches. Cette approche structurée garantit que le modèle conserve des connaissances sémantiques étendues tout en acquérant les compétences motrices spécialisées nécessaires à la manipulation de précision et à la navigation environnementale dans le domaine de l'IA physique.

Pendant la phase de pré-entraînement, les chercheurs effectuent un entraînement à grande échelle sur le modèle vision-langage (VLM) en utilisant du texte web, des données de conduite et des journaux d'interaction. Cette étape est cruciale pour acquérir des connaissances sémantiques aux côtés de l'intuition physique. Ensuite, l'étape d'entraînement intermédiaire introduit un expert d'action par flow-matching. Ce composant est construit au-dessus du VLM pour concilier le raisonnement de haut niveau avec les exigences granulaires du contrôle robotique. Enfin, la phase de post-entraînement implique l'apprentissage par renforcement et le réglage fin dans des environnements spécifiques, tels que le benchmark RoboChallenge, pour s'assurer que le modèle peut gérer des tâches spécialisées avec une grande fiabilité.

DM0 peut-il être utilisé à la fois pour la manipulation et la navigation robotiques ?

DM0 est conçu pour fonctionner comme un modèle généraliste capable à la fois de manipulation et de navigation robotiques en unifiant ces tâches au sein d'un cadre unique. Il atteint des performances de pointe sur le benchmark Table30 pour la manipulation tout en démontrant un raisonnement robuste par chaîne de pensée spatiale (CoT) qui lui permet de naviguer dans des environnements et d'interagir avec des objets dans le cadre d'un flux de travail continu.

Historiquement, les systèmes robotiques fonctionnaient en silos : un modèle gérait le passage d'un point A à un point B (navigation), tandis qu'un autre s'occupait de ramasser un objet (manipulation). DM0 brise ces silos en traitant les deux comme des actions incarnées. Cette unification est alimentée par des données hétérogènes, qui fournissent au modèle des exemples de mouvements environnementaux larges et de coordination œil-main précise. Dans des applications pratiques, cela signifie qu'un robot propulsé par DM0 pourrait naviguer dans une cuisine pour trouver un fruit spécifique, puis le disposer précisément dans un bol, en maintenant un objectif de haut niveau tout en gérant la physique de bas niveau de chaque étape.

Percées techniques : l'expert d'action par Flow-Matching

L'expert d'action par flow-matching est un composant architectural spécialisé qui permet à DM0 de prédire des trajectoires motrices précises en associant les entrées visuelles et linguistiques à des actions physiques. Ce mécanisme utilise une stratégie d'entraînement hybride où les gradients des tâches d'action ne sont pas rétropropagés vers le VLM central, empêchant ainsi l'« oubli catastrophique » des capacités de raisonnement général pendant que le robot apprend des compétences spécifiques en IA physique.

  • Isolation des gradients : En empêchant les gradients liés à l'action de modifier le VLM, DM0 garantit que l'apprentissage du vissage d'une vis ne dégrade pas la capacité du modèle à comprendre des instructions verbales complexes.
  • Échafaudage spatial incarné : Cette stratégie utilise le raisonnement par chaîne de pensée pour contraindre l'« espace de solution d'action », aidant le robot à planifier ses mouvements logiquement avant de les exécuter.
  • Gains d'efficacité : L'approche par flow-matching permet une convergence plus rapide pendant l'entraînement par rapport aux modèles traditionnels basés sur la diffusion, ce qui rend plus faisable l'entraînement sur des ensembles de données massifs.

Implications futures pour l'IA physique et les performances au RoboChallenge

Les performances de DM0 sur le benchmark RoboChallenge démontrent son potentiel à devenir la norme pour les robots domestiques et industriels à usage général. En obtenant des résultats de pointe dans des configurations tant spécialistes que généralistes sur Table30, DM0 prouve que les modèles natifs incarnés peuvent gérer un vaste éventail de tâches — du branchement de câbles au tri d'objets — avec un minimum de programmation spécifique à la tâche.

À mesure que le domaine évolue vers l'intelligence spatiale, le cadre DM0 fournit une feuille de route claire. La capacité d'apprendre à partir de divers journaux d'interaction signifie qu'à mesure que davantage de robots entreront dans le monde, le réservoir de données pour des modèles comme DM0 augmentera de manière exponentielle. Cela crée un cercle vertueux où l'IA physique devient de plus en plus apte à comprendre les nuances du monde humain. Le succès de Hao Liu, Bin Xie et Yi Yang dans la création d'un modèle qui « pense » en termes d'action physique suggère que la prochaine génération de robots ne sera pas simplement programmée pour effectuer des tâches, mais possédera une compréhension intrinsèque des environnements qu'elle habite.

James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Readers Questions Answered

Q En quoi DM0 diffère-t-il des modèles vision-langage-action traditionnels ?
A DM0 se distingue des modèles vision-langage-action (VLA) traditionnels par son caractère intrinsèquement incarné (embodied-native), intégrant des a priori physiques multi-sources plutôt que d'adapter des modèles vision-langage (VLM) purement sémantiques affinés sur des données robotiques. Il utilise une stratégie d'entraînement hybride où un expert en action par mise en correspondance de flux (flow-matching) est construit sur le VLM. Les gradients des données incarnées ne sont pas rétropropagés vers le VLM afin de préserver les représentations généralisées, tout en permettant l'entraînement du VLM sur des données non incarnées. Cette conception permet d'obtenir des performances supérieures dans des tâches de manipulation complexes par rapport à des modèles de référence comme π0.
Q DM0 peut-il être utilisé à la fois pour la manipulation robotique et la navigation ?
A Oui, DM0 peut être utilisé aussi bien pour la manipulation robotique que pour la navigation. Il excelle dans les bancs d'essai de manipulation comme Table30, atteignant des résultats de pointe dans des tâches telles que la disposition de fruits et le branchement de câbles. Il se généralise également de manière efficace aux contextes mobiles, affichant un raisonnement par chaîne de pensée robuste et un potentiel pour des applications d'agents mobiles.
Q Quel est le pipeline en trois étapes de DM0 : pré-entraînement, entraînement intermédiaire et post-entraînement ?
A Les résultats ne décrivent pas explicitement un pipeline en trois étapes (pré-entraînement, entraînement intermédiaire et post-entraînement) pour DM0. Ils mettent plutôt en avant une stratégie d'entraînement hybride impliquant un entraînement conjoint sur des ensembles de données à grande échelle, la construction d'un expert en action par mise en correspondance de flux sur un VLM, et une rétropropagation sélective des gradients pour équilibrer le raisonnement et le contrôle. L'inférence prend en charge la prédiction directe d'actions ou des sorties textuelles raisonnées conditionnant les actions.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!