World Action Models против VLA: прогнозирование физики

Breaking News Технологии
Close-up of a sleek robotic hand reaching toward a floating, rippling sphere of light against a dark background.
4K Quality
В то время как современные модели Vision-Language-Action (VLA) отлично справляются с пониманием команд, им часто трудно ориентироваться в непредсказуемой физике новых сред. DreamZero знаменует переход к World Action Models, используя видеодиффузию, чтобы помочь роботам предсказывать визуальные и физические последствия своих действий в режиме реального времени.

**Интеграция** технологий видеодиффузии и управления роботами привела к серьезному прорыву в том, как искусственный интеллект взаимодействует с физическим миром. В то время как традиционные модели Vision-Language-Action (VLA) искусно справляются с выполнением лингвистических команд, они часто терпят неудачу, сталкиваясь с непредсказуемой физикой новых сред. Чтобы решить эту проблему, исследователи Kyungmin Lee, Jing Wang и Jan Kautz представили DreamZero — модель типа World Action Model (WAM), которая позволяет роботам предсказывать визуальные и физические последствия своих действий. Рассматривая видео как плотное представление эволюции окружающей среды, эта новая архитектура наделяет роботов своего рода физической интуицией, позволяющей им адаптироваться к ранее не встречавшимся сценариям с беспрецедентной точностью.

Ограниченность семантического ИИ в физическом пространстве

Современная робототехника часто полагается на семантическое обобщение, которое помогает роботу идентифицировать объекты, но не гарантирует успешного физического перемещения в новых условиях. Модели Vision-Language-Action (VLA) обычно отлично понимают, «что» представляет собой объект, но испытывают трудности с тем, «как» им манипулировать при изменении освещения, ориентации или динамики среды. Этот разрыв существует потому, что у таких моделей отсутствует World Model (модель мира) — внутреннее симуляционное пространство, которое понимает причинно-следственную связь между командой мотора и её физическим результатом.

Исследования показывают, что когда робот попадает в новую среду, отсутствие физической привязки приводит к накоплению авторегрессионных ошибок. Небольшие просчеты на начальном этапе задачи ведут к полному сбою выполнения, так как модель не может «видеть» будущее состояние мира, который она создает. Чтобы исправить это, DreamZero смещает парадигму от простого предсказания действий к комплексному моделированию физической динамики, гарантируя, что робот понимает визуальную и тактильную эволюцию своего рабочего пространства в каждую миллисекунду выполнения задачи.

Чем модели World Action Models отличаются от моделей Vision-Language-Action (VLA)?

World Action Models (WAMs), такие как DreamZero, отличаются от моделей Vision-Language-Action (VLA) интеграцией моделирования мира, которое предсказывает будущие визуальные состояния. В то время как VLA напрямую связывают входные данные с действиями, WAM достигают физической интеграции генерации видео и предсказания действий. Это позволяет модели усваивать базовые законы физики и предсказывать визуальные последствия своего поведения еще до начала движения.

В отличие от стандартных VLA, которые часто обучаются на узких, повторяющихся демонстрациях, DreamZero использует авторегрессионную модель видеодиффузии с 14 млрд параметров. Эта основа позволяет роботу «представлять», как должен выглядеть мир в процессе выполнения задачи. Совместно моделируя видео и действия, World Action Model обучается разнообразным навыкам на основе гетерогенных источников данных. Эта методология обеспечивает двукратное улучшение обобщения на новые задачи и среды по сравнению с передовыми VLA в экспериментах с роботами в реальном мире.

Почему традиционные модели ИИ испытывают трудности с незнакомыми физическими движениями?

Традиционные модели ИИ с трудом справляются с незнакомыми физическими движениями, так как у них отсутствует внутреннее представление о динамике среды и физике. Эти модели обычно полагаются на прямое сопоставление наблюдений и действий, которое не учитывает причинно-следственные связи между движениями и их результатами. Отсутствие прогностической World Model приводит к низкой производительности и распространению ошибок, когда модель сталкивается с новыми сценариями.

На практике это означает, что традиционный робот может знать, как поднять синий кубик в лабораторных условиях, но если заменить кубик на чуть более тяжелую красную сферу в комнате с другими тенями, последовательность действий модели даст сбой. Этот провал происходит потому, что у модели нет «интуиции» относительно плотности среды или того, как её собственные захваты взаимодействуют с различными поверхностями. DreamZero преодолевает это, используя основы видеодиффузии, воспринимая визуальный мир как предсказуемый поток физических событий, а не как серию статических, несвязанных изображений.

DreamZero: архитектура модели World Action Model

Ядро архитектуры DreamZero построено на предварительно обученной базе видеодиффузии, которая функционирует как генеративный симулятор мира. Эта модель не просто предсказывает следующее движение сустава робота; она предсказывает несколько следующих кадров того, что увидят камеры робота. Сопоставляя эти визуальные прогнозы с низкоуровневыми токенами действий, модель гарантирует, что её движения физически согласуются с законами мира, который она наблюдает.

  • Совместное моделирование: одновременное предсказание видеокадров и действий робота для синхронизации физического понимания с моторным исполнением.
  • Плотное представление: использование видео в качестве основного источника данных для фиксации тонких физических нюансов, таких как трение, гравитация и постоянство объектов.
  • Гетерогенные данные: обучение на широком спектре данных от роботов и видео с участием людей, вместо того чтобы полагаться на тысячи идентичных лабораторных демонстраций.

Может ли DreamZero научиться выполнять задачи, наблюдая за людьми?

DreamZero может обучаться сложным задачам, просматривая видеодемонстрации действий человека, благодаря своим надежным возможностям кросс-воплощения (cross-embodiment). Анализируя человеческие движения как плотное видеопредставление, модель достигает синтеза антропоцентрических визуальных данных и роботизированного управления. Это позволяет системе извлекать шаблоны физических движений и применять их к собственному оборудованию робота, имея всего от 10 до 20 минут демонстрационных данных.

Эта способность, известная как cross-embodiment transfer (кросс-воплощенный перенос), представляет собой качественный скачок в направлении робототехники общего назначения. В ходе тестирования демонстрации видео с участием людей обеспечили относительное улучшение производительности при выполнении новых задач более чем на 42%. Это говорит о том, что модель не просто имитирует пиксели, а понимает фундаментальную физику выполняемой задачи. Независимо от того, является ли демонстратором человеческая рука или другой манипулятор робота, DreamZero определяет цель и физические шаги, необходимые для её достижения.

Управление в реальном времени и оптимизация системы

Запуск модели с 14 млрд параметров в реальном времени является серьезной технической задачей, которую DreamZero решает за счет глубокой оптимизации модели и системы. Традиционные крупномасштабные модели часто слишком медленны для отклика на уровне миллисекунд, необходимого в робототехнике. Тем не менее, исследователи добились частоты управления 7 Гц в замкнутом цикле, что достаточно быстро для того, чтобы робот реагировал на изменения в окружающей среде по мере их возникновения.

Эти оптимизации сокращают разрыв между высокоуровневыми рассуждениями — например, «сделай бутерброд» — и детализированными моторными командами, необходимыми для выполнения задачи. Благодаря эффективной работе авторегрессионной видеодиффузии, DreamZero поддерживает постоянную петлю обратной связи. Если объект выскальзывает или среда меняется в процессе действия, модель одновременно обновляет визуальный прогноз и план действий, сохраняя стабильность так, как не могли предыдущие крупномасштабные модели.

Будущее зеро-шот обобщения в робототехнике

Пожалуй, самым удивительным открытием исследования стала способность DreamZero к адаптации воплощения по нескольким примерам (few-shot). Модель может переносить накопленные навыки на совершенно новое оборудование робота, имея всего 30 минут данных «игры». Это означает, что модель, обученная на одном типе промышленного манипулятора, может быть быстро адаптирована к другой модели или даже к гуманоидному роботу без потери возможностей зеро-шот (zero-shot) обобщения.

По мере того как робототехника движется в сторону более сложных и неструктурированных сред, интеграция генеративных видеомоделей и предсказания действий, вероятно, станет стандартом. Работа NVIDIA Research и авторов демонстрирует, что World Action Models обеспечивают тот необходимый «физический здравый смысл», которого не хватало искусственному интеллекту. Будущие итерации этой технологии могут привести к созданию роботов, которые смогут войти в любой дом или завод и начать безопасно и эффективно выполнять задачи всего после нескольких минут наблюдения.

James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Readers Questions Answered

Q Чем модели World Action отличаются от моделей Vision-Language-Action (VLA)?
A Модели World Action, такие как DreamZero, интегрируют модели мира, которые предсказывают будущие изображения и изучают лежащую в основе физику. Это отличает их от моделей Vision-Language-Action (VLA), которые напрямую преобразуют визуальные и языковые входные данные в действия робота без явного моделирования мира. VLA фокусируются на сквозной генерации действий на основе наблюдений и инструкций, в то время как модели World Action, такие как WorldVLA, сочетают прогнозирование действий с моделированием мира для взаимного усиления и лучшей физической интуиции. Такое объединение устраняет ограничения VLA в обобщении на неизвестную динамику.
Q Может ли DreamZero научиться выполнять задачи, наблюдая за людьми?
A Да, DreamZero может обучаться задачам, наблюдая за людьми, так как его модели World Action обучаются на демонстрациях, включая данные телеуправления человеком, что позволяет имитировать физические движения. Подобно моделям VLA, он использует визуальные наблюдения за действиями людей для генерации соответствующих действий, дополненных прогнозами физических результатов от модели мира.
Q Почему традиционные модели ИИ испытывают трудности с незнакомыми физическими движениями?
A Традиционные модели ИИ испытывают трудности с незнакомыми физическими движениями из-за ограниченной способности к обобщению в авторегрессионном прогнозировании действий, где ошибки накапливаются от ранних действий к последующим при отсутствии понимания базовой физики. Они полагаются на прямое сопоставление наблюдений и действий без использования моделей мира для симуляции и прогнозирования динамики окружающей среды, что приводит к низкой эффективности в новых сценариях.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!