Физический ИИ достиг важного поворотного момента с внедрением DM0 — фреймворка типа «зрение-язык-действие» (VLA), который с самого начала интегрирует физические законы и пространственное мышление. В отличие от предыдущих моделей, адаптированных на основе текстов и изображений из интернета, Hao Liu, Bin Xie и Yi Yang разработали систему, в которой физическое взаимодействие рассматривается как основной источник данных, а не как второстепенный этап тонкой настройки. Этот «нативно-воплощенный» (embodied-native) подход позволяет роботам ориентироваться в сложных средах и манипулировать объектами с точностью, имитирующей биологическое обучение, устраняя давний разрыв между цифровыми рассуждениями и исполнением в реальном мире.
Чем DM0 отличается от традиционных моделей типа «зрение-язык-действие»?
DM0 отличается от традиционных моделей VLA тем, что с самого начала обучения включает в себя внутренние многоисточниковые физические априорные знания (priors), а не полагается на дообучение моделей, предварительно обученных на данных из интернета. Используя гибридную стратегию обучения и эксперта по действиям на основе сопоставления потоков (flow-matching), DM0 сохраняет обобщенные семантические представления, одновременно осваивая высокочастотное управление, необходимое для сложных робототехнических задач, эффективно превосходя такие аналоги, как π0.
Традиционный ИИ для робототехники часто испытывает трудности, поскольку он адаптирован на основе моделей, обученных в первую очередь на интернет-текстах, а не на физическом мире. Этим «интернет-ориентированным» моделям не хватает врожденного понимания пространственного интеллекта, что приводит к «галлюцинациям» в физическом движении: робот может понять команду «подними чашку», но не осознать крутящий момент или траекторию, необходимые для этого. Напротив, DM0 является нативно-воплощенной моделью. Это означает, что она создана для понимания физического заземления (grounding) — взаимосвязи между визуальным вводом, лингвистическими командами и моторным выходом — как единого, унифицированного языка действий.
Концепция нативно-воплощенного интеллекта в физическом ИИ
Нативно-воплощенный интеллект (embodied-native intelligence) относится к парадигме, в которой модель ИИ изучает фундаментальные законы физики и пространственные отношения одновременно с семантическими языковыми данными. Этот подход выходит за рамки пассивного наблюдения, когда модель просто смотрит видео или читает описания, и переходит к активному физическому заземлению. Обучаясь на гетерогенных источниках данных, включая логи автономного вождения и данные о взаимодействии роботов, DM0 развивает «здравый смысл» в отношении физического мира, который модели, обученные только на интернет-данных, не могут воспроизвести.
Исследовательская группа утверждает, что тонкой настройки интернет-моделей для физики недостаточно для решения сложных задач, так как базовая архитектура не оптимизирована для низкоуровневого управления. DM0 решает эту проблему путем интеграции пространственных знаний из различных корпусов данных. Например, включая сценарии автономного вождения, модель изучает динамику движения и обхода препятствий в масштабе. Эти физические априорные знания действуют как каркас, позволяя модели переходить от понимания 2D-изображения к работе в 3D-пространстве с чувством глубины и последствий действий.
Что представляет собой трехэтапный конвейер DM0: предварительное обучение, промежуточное обучение и постобучение?
Конвейер DM0 состоит из унифицированного предварительного обучения (Pretraining) на разнообразных веб- и физических корпусах, промежуточного обучения (Mid-Training) для разработки эксперта по действиям на основе сопоставления потоков и постобучения (Post-Training) для уточнения конкретных задач. Этот структурированный подход гарантирует, что модель сохраняет широкие семантические знания, приобретая специализированные моторные навыки, необходимые для точных манипуляций и навигации в среде в области физического ИИ.
Во время фазы предварительного обучения исследователи проводят масштабное обучение модели зрения и языка (VLM), используя веб-тексты, данные вождения и логи взаимодействий. Этот этап имеет решающее значение для приобретения семантических знаний наряду с физической интуицией. После этого на этапе промежуточного обучения вводится эксперт по действиям на основе сопоставления потоков (flow-matching). Этот компонент надстраивается над VLM для согласования высокоуровневых рассуждений с детальными требованиями управления роботом. Наконец, фаза постобучения включает обучение с подкреплением и тонкую настройку в конкретных средах, таких как бенчмарк RoboChallenge, чтобы гарантировать, что модель может справляться со специализированными задачами с высокой надежностью.
Можно ли использовать DM0 как для манипуляций, так и для навигации роботов?
DM0 разработан как модель-генералист, способная как к манипуляциям, так и к навигации роботов путем объединения этих задач в рамках единого фреймворка. Она достигает самых современных показателей в бенчмарке Table30 для манипуляций, демонстрируя при этом надежную пространственную цепочку рассуждений (Chain-of-Thought, CoT), которая позволяет ей перемещаться в пространстве и взаимодействовать с объектами как в рамках непрерывного рабочего процесса.
Исторически робототехнические системы работали изолированно: одна модель отвечала за перемещение из точки А в точку Б (навигация), в то время как другая — за поднятие объекта (манипуляция). DM0 разрушает эти барьеры, рассматривая оба процесса как воплощенные действия. Это объединение обеспечивается гетерогенными данными, которые предоставляют модели примеры как широкого перемещения в окружающей среде, так и тонкой координации «глаз-рука». В практических приложениях это означает, что робот на базе DM0 может перемещаться по кухне в поисках конкретного фрукта, а затем точно разложить его в вазе, сохраняя высокоуровневую целеустремленность при управлении низкоуровневой физикой каждого шага.
Технологические прорывы: эксперт по действиям на основе сопоставления потоков
Эксперт по действиям на основе сопоставления потоков (flow-matching) — это специализированный архитектурный компонент, который позволяет DM0 предсказывать точные траектории двигателей, сопоставляя визуальные и лингвистические входные данные с физическими действиями. Этот механизм использует гибридную стратегию обучения, при которой градиенты от задач действия не передаются обратно в ядро VLM, что предотвращает «катастрофическое забывание» общих способностей к рассуждению, пока робот изучает специфические навыки физического ИИ.
- Изоляция градиентов: Предотвращая изменение VLM градиентами, связанными с действиями, DM0 гарантирует, что обучение завинчиванию винта не ухудшит способность модели понимать сложные словесные инструкции.
- Воплощенный пространственный каркас: Эта стратегия использует цепочку рассуждений (Chain-of-Thought) для ограничения «пространства решений действий», помогая роботу логически планировать свои движения перед их выполнением.
- Повышение эффективности: Подход на основе сопоставления потоков обеспечивает более быструю сходимость во время обучения по сравнению с традиционными диффузионными моделями, что делает обучение на массивных наборах данных более выполнимым.
Будущие перспективы физического ИИ и результаты в RoboChallenge
Результаты DM0 в бенчмарке RoboChallenge демонстрируют его потенциал стать стандартом для бытовых и промышленных роботов общего назначения. Достигнув передовых результатов как в специализированных, так и в общих сценариях на Table30, DM0 доказывает, что нативно-воплощенные модели могут справляться с огромным спектром задач — от подключения кабелей до сортировки предметов — с минимальным специфическим программированием.
По мере продвижения отрасли к пространственному интеллекту, фреймворк DM0 предоставляет четкую дорожную карту. Способность учиться на основе разнообразных логов взаимодействия означает, что по мере появления в мире большего количества роботов, объем данных для таких моделей, как DM0, будет расти в геометрической прогрессии. Это создает благотворный цикл, в котором физический ИИ становится все более искусным в понимании нюансов человеческого мира. Успех Hao Liu, Bin Xie и Yi Yang в создании модели, которая «мыслит» категориями физического действия, предполагает, что следующее поколение роботов будет не просто запрограммировано на выполнение задач, но и будет обладать врожденным пониманием среды своего обитания.
Comments
No comments yet. Be the first!