월드 액션 모델(WAM) vs VLA: 물리 법칙 예측하기

Breaking News 테크놀로지
Close-up of a sleek robotic hand reaching toward a floating, rippling sphere of light against a dark background.
4K Quality
현재의 시각-언어-행동(VLA) 모델은 명령 이해에는 뛰어나지만, 새로운 환경의 예측 불가능한 물리 법칙을 탐색하는 데는 어려움을 겪는 경우가 많습니다. 드림제로(DreamZero)는 비디오 디퓨전 기술을 활용해 로봇이 자신의 행동에 따른 시각적·물리적 결과를 실시간으로 예측할 수 있도록 돕는 월드 액션 모델(World Action Models)로의 패러다임 전환을 제안합니다.

비디오 확산 기술과 로봇 제어의 **융합**은 인공지능이 물리적 세계와 상호작용하는 방식에 있어 중대한 돌파구를 마련했습니다. 기존의 시각-언어-행동(Vision-Language-Action, VLA) 모델은 언어 명령을 따르는 데 능숙하지만, 예측 불가능한 물리적 환경에 직면했을 때 종종 한계를 드러냅니다. 이를 해결하기 위해 연구진 Kyungmin Lee, Jing Wang, 그리고 Jan Kautz는 로봇이 자신의 행동에 따른 시각적 및 물리적 결과를 예측할 수 있게 해주는 세계 행동 모델(World Action Model, WAM)DreamZero를 도입했습니다. 비디오를 환경 변화의 밀도 높은 표현으로 취급함으로써, 이 새로운 아키텍처는 로봇에게 일종의 물리적 직관을 제공하여 전례 없는 정확도로 처음 보는 시나리오에 적응할 수 있게 합니다.

물리적 공간에서 의미론적 AI의 한계

현대 로보틱스는 종종 의미론적 일반화(semantic generalization)에 의존하는데, 이는 로봇이 객체를 식별하는 데는 도움이 되지만 새로운 환경에서의 성공적인 물리적 움직임으로 이어지지는 않습니다. 시각-언어-행동(VLA) 모델은 일반적으로 객체가 '무엇'인지 이해하는 데는 뛰어나지만, 조명, 방향 또는 환경 역학이 변할 때 그것을 '어떻게' 조작해야 하는지에 대해서는 어려움을 겪습니다. 이러한 격차는 이 모델들에 세계 모델(World Model), 즉 운동 명령과 그에 따른 물리적 결과 사이의 인과 관계를 이해하는 내부 시뮬레이션이 결합되지 않았기 때문에 발생합니다.

연구에 따르면 로봇이 새로운 환경에 진입할 때 물리적 기반(physical grounding)이 부족하면 자기회귀 오류(autoregressive errors)가 누적됩니다. 과업의 초기 단계에서 발생하는 작은 실수는 실행의 완전한 실패로 이어지는데, 이는 모델이 자신이 만들어내고 있는 세상의 미래 상태를 '볼' 수 없기 때문입니다. 이를 해결하기 위해 DreamZero는 단순한 행동 예측에서 물리적 역학(physical dynamics)의 포괄적인 모델링으로 패러다임을 전환하여, 로봇이 과업을 수행하는 매 밀리초 동안 작업 공간의 시각적 및 촉각적 변화를 이해할 수 있도록 보장합니다.

세계 행동 모델(WAM)은 시각-언어-행동(VLA) 모델과 어떻게 다른가요?

DreamZero와 같은 세계 행동 모델(WAM)은 미래의 시각적 상태를 예측하는 세계 모델링을 통합한다는 점에서 시각-언어-행동(VLA) 모델과 차별화됩니다. VLA가 입력을 행동에 직접 매핑하는 반면, WAM은 비디오 생성과 행동 예측의 물리적 융합을 구현합니다. 이를 통해 모델은 기저에 깔린 물리학을 내재화하고 움직임을 실행하기 전에 자신의 행동이 가져올 시각적 결과를 예측할 수 있습니다.

좁고 반복적인 시연 데이터로 훈련되는 표준 VLA와 달리, DreamZero140억 개의 파라미터를 가진 자기회귀 비디오 확산 모델을 활용합니다. 이 백본(backbone)을 통해 로봇은 과업을 수행할 때 세상이 어떤 모습이어야 하는지 '상상'할 수 있습니다. 비디오와 행동을 공동으로 모델링함으로써, 세계 행동 모델은 이질적인 데이터 소스로부터 다양한 기술을 습득합니다. 이러한 방법론은 실제 로봇 실험에서 최첨단 VLA와 비교했을 때 새로운 과업 및 환경에 대한 일반화 성능을 2배 향상시키는 결과로 이어졌습니다.

왜 전통적인 AI 모델은 보지 못한 물리적 움직임에 어려움을 겪나요?

전통적인 AI 모델이 보지 못한 물리적 움직임에 어려움을 겪는 이유는 환경 역학과 물리학에 대한 본질적인 표현이 부족하기 때문입니다. 이러한 모델들은 일반적으로 움직임과 그 결과 사이의 인과 관계를 고려하지 않는 직접적인 관찰-행동 매핑에 의존합니다. 이러한 예측적 세계 모델의 부재는 모델이 새로운 시나리오를 만났을 때 성능 저하와 오류 확산으로 이어집니다.

실제로 이는 전통적인 로봇이 실험실 환경에서 파란색 블록을 집는 법은 알 수 있지만, 다른 그림자가 드리워진 방에서 블록이 약간 더 무거운 빨간색 구체로 바뀌면 모델의 행동 시퀀스가 실패함을 의미합니다. 이러한 실패는 모델이 환경의 밀도나 자신의 그리퍼가 다양한 표면과 상호작용하는 방식에 대한 '직관'이 없기 때문에 발생합니다. DreamZero는 비디오 확산 백본을 토대로 활용하여, 시각적 세계를 정적이고 단절된 이미지의 연속이 아닌 예측 가능한 물리적 사건의 흐름으로 취급함으로써 이를 극복합니다.

DreamZero: 세계 행동 모델의 아키텍처

DreamZero의 핵심 아키텍처는 생성형 세계 시뮬레이터 역할을 하는 사전 훈련된 비디오 확산 백본을 기반으로 구축되었습니다. 이 모델은 단순히 다음 로봇 관절의 움직임을 예측하는 데 그치지 않고, 로봇의 카메라에 비칠 다음 몇 프레임을 예측합니다. 이러한 시각적 예측을 저수준 행동 토큰(low-level action tokens)과 정렬함으로써, 모델은 자신의 움직임이 관찰 중인 세계의 물리 법칙과 일치하도록 보장합니다.

  • 공동 모델링(Joint Modeling): 물리적 이해와 운동 실행을 동기화하기 위해 비디오 프레임과 로봇 행동을 동시에 예측합니다.
  • 밀도 높은 표현(Dense Representation): 비디오를 주요 데이터 소스로 사용하여 마찰, 중력, 대상 영속성 같은 미묘한 물리적 뉘앙스를 포착합니다.
  • 이질적 데이터(Heterogeneous Data): 수천 번의 동일한 실험실 시연에 의존하는 대신, 광범위한 로봇 데이터와 인간 비디오로부터 학습합니다.

DreamZero는 인간을 관찰함으로써 과업 수행을 배울 수 있나요?

DreamZero는 강력한 교차 신체(cross-embodiment) 능력을 통해 인간의 비디오 시연을 보고 복잡한 과업을 배울 수 있습니다. 인간의 움직임을 밀도 높은 비디오 표현으로 분석함으로써, 이 모델은 인간 중심의 시각 데이터와 로봇 제어의 융합을 달성합니다. 이를 통해 시스템은 단 10~20분의 시연 데이터만으로 물리적 운동 패턴을 추출하여 자신의 로봇 하드웨어에 적용할 수 있습니다.

교차 신체 전이(cross-embodiment transfer)로 알려진 이 기능은 범용 로보틱스(General Purpose Robotics)를 향한 큰 도약을 의미합니다. 테스트 결과, 인간의 비디오 전용 시연은 보지 못한 과업 성능에서 42% 이상의 상대적 향상을 보여주었습니다. 이는 모델이 단순히 픽셀을 흉내 내는 것이 아니라 수행되는 과업의 근본적인 물리학을 이해하고 있음을 시사합니다. 시연자가 사람의 손이든 다른 로봇 팔이든 관계없이, DreamZero는 목표와 이를 달성하기 위해 필요한 물리적 단계를 식별해냅니다.

실시간 제어 및 시스템 최적화

실시간으로 140억 개의 파라미터 모델을 실행하는 것은 상당한 기술적 과제이지만, DreamZero는 광범위한 모델 및 시스템 최적화를 통해 이를 극복합니다. 전통적인 대규모 모델은 로보틱스에서 요구되는 밀리초 단위의 응답을 처리하기에는 너무 느린 경우가 많습니다. 그러나 연구진은 로봇이 환경 변화에 즉각적으로 반응할 수 있을 만큼 빠른 7Hz 폐쇄 루프(closed-loop) 제어를 달성했습니다.

이러한 최적화는 "샌드위치를 만들어라"와 같은 고수준 추론과 과업 수행에 필요한 세밀한 모터 명령 사이의 간극을 메워줍니다. 자기회귀 비디오 확산 모델을 효율적으로 실행함으로써 DreamZero는 지속적인 피드백 루프를 유지합니다. 만약 물체가 미끄러지거나 동작 도중에 환경이 변하면, 모델은 시각적 예측과 행동 계획을 동시에 업데이트하여 이전의 대규모 모델들이 할 수 없었던 방식으로 안정성을 유지합니다.

제로샷 로봇 일반화의 미래

이번 연구에서 가장 놀라운 발견은 DreamZero퓨샷 신체 적응(few-shot embodiment adaptation)을 수행하는 능력일 것입니다. 이 모델은 단 30분의 '플레이(play)' 데이터만으로 학습된 기술을 완전히 새로운 로봇 하드웨어로 전이할 수 있습니다. 이는 한 종류의 산업용 로봇 팔에서 훈련된 모델이 제로샷 일반화(zero-shot generalization) 능력을 잃지 않으면서 다른 모델이나 심지어 휴머노이드 로봇에도 빠르게 적응할 수 있음을 의미합니다.

로보틱스 분야가 더욱 복잡하고 정해지지 않은 환경으로 나아감에 따라, 생성형 비디오 모델과 행동 예측의 융합은 표준이 될 가능성이 높습니다. NVIDIA Research와 저자들의 연구는 세계 행동 모델이 그동안 AI에서 결여되었던 필요한 '물리적 상식'을 제공한다는 것을 입증합니다. 이 기술의 향후 버전은 어떤 가정이나 공장에도 들어가 몇 분의 관찰만으로 안전하고 효과적으로 과업을 수행하기 시작하는 로봇으로 이어질 수 있습니다.

James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Readers Questions Answered

Q 세계 행동 모델(World Action Models)은 시각-언어-행동(VLA) 모델과 어떻게 다른가요?
A DreamZero와 같은 세계 행동 모델은 미래의 이미지를 예측하고 근본적인 물리 법칙을 학습하는 세계 모델을 통합하는데, 이는 명시적인 세계 시뮬레이션 없이 시각 및 언어 입력을 로봇 행동으로 직접 매핑하는 시각-언어-행동(VLA) 모델과 다릅니다. VLA는 관찰과 지시로부터 엔드투엔드(end-to-end) 행동 생성에 초점을 맞추는 반면, WorldVLA와 같은 세계 행동 모델은 상호 보완과 더 나은 물리적 직관을 위해 행동 예측과 세계 모델링을 결합합니다. 이러한 통합은 학습하지 않은 동역학으로의 일반화에 있어 VLA가 가진 한계를 해결합니다.
Q DreamZero는 인간을 관찰함으로써 작업을 수행하는 법을 배울 수 있나요?
A 예, DreamZero는 인간을 관찰함으로써 작업을 배울 수 있습니다. DreamZero의 세계 행동 모델은 인간의 원격 조작 데이터를 포함한 시연 데이터로 훈련되어 물리적 동작을 모방할 수 있기 때문입니다. VLA와 마찬가지로, 인간의 수행 과정에서 얻은 시각적 관찰을 활용하여 상응하는 행동을 생성하며, 물리적 결과에 대한 세계 모델의 예측을 통해 이를 강화합니다.
Q 전통적인 AI 모델이 학습하지 않은 물리적 동작을 처리하는 데 어려움을 겪는 이유는 무엇인가요?
A 전통적인 AI 모델은 자기회귀적(autoregressive) 행동 예측의 제한된 일반화 능력으로 인해 학습하지 않은 물리적 동작에 어려움을 겪습니다. 이 방식은 초기 행동의 오류가 이후 행동으로 전파되며 근본적인 물리 법칙에 대한 이해가 부족합니다. 또한 환경의 동역학을 시뮬레이션하고 예측하는 세계 모델 없이 관찰값을 행동으로 직접 매핑하는 방식에 의존하므로, 새로운 시나리오에서 성능이 떨어집니다.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!