DM0 redefine la IA física mediante el entrenamiento incorporado

Breaking News Tecnología
Close-up of a sleek robotic hand with intricate sensors reaching toward a metallic object in a dramatic high-tech setting.
4K Quality
La IA robótica tradicional suele tener dificultades porque se adapta a partir de modelos entrenados principalmente con texto de internet en lugar del mundo físico. El nuevo marco DM0 revierte esta tendencia al entrenar un modelo de Visión-Lenguaje-Acción con principios físicos desde el principio, permitiendo que los robots naveguen y razonen de forma simultánea.

La IA física ha alcanzado un punto de inflexión fundamental con la presentación de DM0, un marco de visión-lenguaje-acción (VLA) que integra las leyes físicas y el razonamiento espacial desde su concepción. A diferencia de los modelos anteriores, adaptados a partir de textos e imágenes de internet, Hao Liu, Bin Xie y Yi Yang han desarrollado un sistema que trata la interacción física como una fuente de datos primaria en lugar de un ajuste secundario. Este enfoque "nativo-corpóreo" permite a los robots navegar por entornos complejos y manipular objetos con un nivel de precisión que imita el aprendizaje biológico, cerrando la brecha histórica entre el razonamiento digital y la ejecución en el mundo real.

¿En qué se diferencia DM0 de los modelos tradicionales de visión-lenguaje-acción?

DM0 se diferencia de los modelos VLA tradicionales al incorporar conocimientos previos (prioris) físicos intrínsecos de múltiples fuentes desde el inicio del entrenamiento, en lugar de depender del ajuste fino de modelos preentrenados en internet. Mediante el uso de una estrategia de entrenamiento híbrida y un experto en acciones mediante coincidencia de flujo (flow-matching), DM0 preserva las representaciones semánticas generalizadas al tiempo que domina el control de alta frecuencia necesario para tareas robóticas complejas, superando eficazmente a referentes como π0.

La IA robótica tradicional suele tener dificultades porque se adapta a partir de modelos entrenados principalmente en textos de internet y no en el mundo físico. Estos modelos "centrados en internet" carecen de una comprensión inherente de la inteligencia espacial, lo que provoca "alucinaciones" en el movimiento físico donde un robot podría entender la orden "recoge la taza", pero no logra comprender el torque o la trayectoria necesarios para hacerlo. Por el contrario, DM0 es un modelo nativo-corpóreo. Esto significa que está diseñado para entender el anclaje físico (grounding) —la relación entre la entrada visual, las órdenes lingüísticas y la salida motora— como un lenguaje de acción único y unificado.

El concepto de inteligencia nativa-corpórea en la IA física

La inteligencia nativa-corpórea se refiere a un paradigma en el que un modelo de IA aprende las leyes fundamentales de la física y las relaciones espaciales de forma concurrente con los datos semánticos del lenguaje. Este enfoque va más allá de la observación pasiva, en la que un modelo simplemente mira vídeos o lee descripciones, para pasar a un anclaje físico activo. Al entrenarse con fuentes de datos heterogéneas, que incluyen registros de conducción autónoma y datos de interacción robótica, DM0 desarrolla un "sentido común" para el mundo físico que los modelos exclusivos de internet no pueden replicar.

El equipo de investigación sostiene que ajustar modelos de internet para la física es insuficiente para tareas complejas porque la arquitectura subyacente no está optimizada para el control de bajo nivel. DM0 soluciona esto integrando conocimiento espacial de diversos corpus. Por ejemplo, al incluir escenarios de conducción autónoma, el modelo aprende la dinámica del movimiento y la evitación de obstáculos a escala. Estos prioris físicos actúan como un andamiaje que permite al modelo pasar de comprender una imagen en 2D a operar en un espacio 3D con sentido de la profundidad y la consecuencia.

¿En qué consiste el proceso de tres etapas de DM0: preentrenamiento, entrenamiento intermedio y posentrenamiento?

El proceso de DM0 consiste en un preentrenamiento unificado sobre diversos corpus web y físicos, un entrenamiento intermedio para desarrollar un experto en acciones mediante flow-matching y un posentrenamiento para el refinamiento de tareas específicas. Este enfoque estructurado garantiza que el modelo conserve un amplio conocimiento semántico al tiempo que adquiere las habilidades motoras especializadas necesarias para la manipulación de precisión y la navegación ambiental en el dominio de la IA física.

Durante la fase de preentrenamiento, los investigadores realizan un entrenamiento a gran escala sobre el modelo de visión-lenguaje (VLM) utilizando texto web, datos de conducción y registros de interacción. Esta etapa es fundamental para adquirir conocimiento semántico junto con intuición física. Tras esto, la etapa de entrenamiento intermedio introduce un experto en acciones mediante flow-matching. Este componente se construye sobre el VLM para reconciliar el razonamiento de alto nivel con los requisitos granulares del control robótico. Por último, la fase de posentrenamiento implica aprendizaje por refuerzo y ajuste fino en entornos específicos, como el banco de pruebas RoboChallenge, para garantizar que el modelo pueda manejar tareas especializadas con alta fiabilidad.

¿Puede utilizarse DM0 tanto para la manipulación como para la navegación robótica?

DM0 está diseñado para funcionar como un modelo generalista capaz tanto de la manipulación como de la navegación robótica al unificar estas tareas dentro de un marco único. Logra un rendimiento de vanguardia en el benchmark Table30 para manipulación, al tiempo que demuestra un robusto razonamiento de cadena de pensamiento (CoT) espacial que le permite navegar por entornos e interactuar con objetos como parte de un flujo de trabajo continuo.

Históricamente, los sistemas robóticos han operado en compartimentos estancos: un modelo se encarga de ir del punto A al punto B (navegación), mientras que otro se encarga de recoger un objeto (manipulación). DM0 rompe estos compartimentos al tratar ambos procesos como acciones corpóreas. Esta unificación se basa en datos heterogéneos, que proporcionan al modelo ejemplos tanto de movimientos ambientales amplios como de una coordinación mano-ojo minuciosa. En aplicaciones prácticas, esto significa que un robot equipado con DM0 podría navegar por una cocina para encontrar una fruta específica y luego colocarla con precisión en un bol, manteniendo un enfoque orientado a objetivos de alto nivel mientras gestiona la física de bajo nivel de cada paso.

Avances técnicos: El experto en acciones mediante flow-matching

El experto en acciones mediante flow-matching es un componente arquitectónico especializado que permite a DM0 predecir trayectorias motoras precisas al mapear entradas visuales y lingüísticas con acciones físicas. Este mecanismo utiliza una estrategia de entrenamiento híbrida en la que los gradientes de las tareas de acción no se retropropagan al núcleo del VLM, evitando así el "olvido catastrófico" de las capacidades de razonamiento general mientras el robot aprende habilidades específicas de IA física.

  • Aislamiento de gradientes: Al evitar que los gradientes relacionados con la acción alteren el VLM, DM0 garantiza que aprender a girar un tornillo no degrade la capacidad del modelo para comprender instrucciones verbales complejas.
  • Andamiaje espacial corpóreo: Esta estrategia utiliza el razonamiento de cadena de pensamiento para delimitar el "espacio de solución de la acción", ayudando al robot a planificar sus movimientos lógicamente antes de ejecutarlos.
  • Ganancias de eficiencia: El enfoque de flow-matching permite una convergencia más rápida durante el entrenamiento en comparación con los modelos tradicionales basados en difusión, lo que hace más factible el entrenamiento con conjuntos de datos masivos.

Implicaciones futuras para la IA física y el rendimiento en RoboChallenge

El rendimiento de DM0 en el benchmark RoboChallenge demuestra su potencial para convertirse en el estándar para robots domésticos e industriales de propósito general. Al lograr resultados de vanguardia tanto en configuraciones especialistas como generalistas en Table30, DM0 demuestra que los modelos nativos-corpóreos pueden manejar una vasta gama de tareas —desde enchufar cables hasta clasificar artículos— con una programación específica mínima.

A medida que el campo avanza hacia la inteligencia espacial, el marco DM0 proporciona una hoja de ruta clara. La capacidad de aprender de diversos registros de interacción significa que, a medida que más robots entren en el mundo, el conjunto de datos para modelos como DM0 crecerá exponencialmente. Esto crea un círculo virtuoso en el que la IA física se vuelve cada vez más experta en comprender los matices del mundo humano. El éxito de Hao Liu, Bin Xie y Yi Yang al crear un modelo que "piensa" en términos de acción física sugiere que la próxima generación de robots no solo estará programada para realizar tareas, sino que poseerá una comprensión inherente de los entornos que habitan.

James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Readers Questions Answered

Q ¿En qué se diferencia el DM0 de los modelos tradicionales de visión-lenguaje-acción?
A El DM0 se diferencia de los modelos tradicionales de visión-lenguaje-acción (VLA) por ser un modelo nativo-encarnado que incorpora prioris físicos intrínsecos de múltiples fuentes, en lugar de adaptar modelos de visión-lenguaje (VLM) puramente semánticos ajustados con datos robóticos. Emplea una estrategia de entrenamiento híbrida en la que se construye un experto en acciones de coincidencia de flujo (flow-matching) sobre el VLM, con gradientes de datos encarnados que no se retropropagan al VLM para preservar las representaciones generalizadas, permitiendo al mismo tiempo el entrenamiento del VLM con datos no encarnados. Este diseño permite un rendimiento superior en tareas de manipulación complejas en comparación con líneas base como π0.
Q ¿Puede utilizarse el DM0 tanto para la manipulación robótica como para la navegación?
A Sí, el DM0 puede utilizarse tanto para la manipulación robótica como para la navegación. Destaca en pruebas de rendimiento de manipulación como Table30, logrando resultados de vanguardia en tareas como la organización de frutas y la conexión de cables. También se generaliza eficazmente a contextos móviles, mostrando un sólido razonamiento de cadena de pensamiento y potencial para aplicaciones de agentes móviles.
Q ¿Cuál es el proceso de tres etapas del DM0: Preentrenamiento, Entrenamiento Intermedio y Posentrenamiento?
A Los resultados de la búsqueda no describen explícitamente un proceso de tres etapas de Preentrenamiento, Entrenamiento Intermedio y Posentrenamiento para el DM0. En su lugar, destacan una estrategia de entrenamiento híbrida que implica el entrenamiento conjunto en conjuntos de datos a gran escala, la creación de un experto en acciones de coincidencia de flujo sobre un VLM y la retropropagación selectiva de gradientes para equilibrar el razonamiento y el control. La inferencia admite la predicción directa de acciones o salidas textuales razonadas que condicionan las acciones.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!