피지컬 AI(Physical AI)는 물리 법칙과 공간 추론을 초기 단계부터 통합한 시각-언어-행동(VLA) 프레임워크인 DM0의 등장으로 중요한 전환점을 맞이했습니다. 인터넷의 텍스트와 이미지를 기반으로 적응시킨 기존 모델들과 달리, Hao Liu, Bin Xie, Yi Yang은 물리적 상호작용을 사후 파인튜닝 단계가 아닌 주요 데이터 소스로 취급하는 시스템을 개발했습니다. 이러한 "체화 기반(embodied-native)" 접근 방식은 로봇이 복잡한 환경을 탐색하고 생물학적 학습과 유사한 수준의 정밀도로 물체를 조작할 수 있게 하여, 디지털 추론과 실제 세계 실행 사이의 오랜 간극을 메워줍니다.
DM0는 기존의 시각-언어-행동 모델과 어떻게 다른가요?
DM0는 인터넷으로 사전 학습된 모델을 파인튜닝하는 데 의존하는 대신, 학습 초기 단계부터 본질적인 다중 소스 물리적 사전 정보(physical priors)를 포함한다는 점에서 기존 VLA 모델과 차별화됩니다. DM0는 하이브리드 학습 전략과 플로우 매칭 액션 전문가(flow-matching action expert)를 활용하여 일반화된 의미론적 표현을 보존하는 동시에, 복잡한 로봇 작업에 필요한 고주파 제어를 마스터함으로써 π0와 같은 벤치마크를 효과적으로 능가합니다.
기존의 로봇 AI는 주로 물리적 세계가 아닌 인터넷 텍스트로 학습된 모델을 적응시켰기 때문에 종종 어려움을 겪습니다. 이러한 "인터넷 우선(internet-first)" 모델은 고유한 공간 지능(spatial intelligence)이 부족하여 물리적 움직임에서 "환각(hallucination)" 현상이 발생합니다. 예를 들어 로봇이 "컵을 집으라"는 명령은 이해하지만, 이를 수행하는 데 필요한 토크나 궤적은 파악하지 못할 수 있습니다. 반면, DM0는 체화 기반(embodied-native) 모델입니다. 즉, 시각적 입력, 언어적 명령, 모터 출력 사이의 관계인 물리적 접지(physical grounding)를 단일화된 행동 언어로 이해하도록 설계되었습니다.
피지컬 AI에서 체화 기반 지능의 개념
체화 기반 지능(Embodied-native intelligence)이란 AI 모델이 의미론적 언어 데이터와 함께 물리학의 기본 법칙과 공간적 관계를 동시에 학습하는 패러다임을 의미합니다. 이 접근 방식은 모델이 단순히 영상을 보거나 설명을 읽는 수동적 관찰을 넘어 능동적인 물리적 접지로 나아갑니다. 자율 주행 로그와 로봇 상호작용 데이터를 포함한 이종 데이터 소스(heterogeneous data sources)를 학습함으로써, DM0는 인터넷 전용 모델이 복제할 수 없는 물리적 세계에 대한 "상식"을 개발합니다.
연구진은 기본 아키텍처가 저수준 제어(low-level control)에 최적화되어 있지 않기 때문에, 인터넷 모델을 물리학에 맞춰 파인튜닝하는 것만으로는 복잡한 작업을 수행하기에 불충분하다고 주장합니다. DM0는 다양한 코퍼스로부터 공간 지식을 통합하여 이 문제를 해결합니다. 예를 들어, 자율 주행 시나리오를 포함함으로써 모델은 대규모 환경에서의 움직임 역학과 장애물 회피를 학습합니다. 이러한 물리적 사전 정보(physical priors)는 발판 역할을 하여, 모델이 2D 이미지를 이해하는 단계에서 깊이감과 인과관계를 갖춘 3D 공간에서 작동하는 단계로 전환할 수 있게 합니다.
DM0의 3단계 파이프라인(사전 학습, 중간 학습, 사후 학습)은 무엇인가요?
DM0 파이프라인은 다양한 웹 및 물리적 코퍼스에 대한 통합 사전 학습(Pretraining), 플로우 매칭 액션 전문가를 개발하기 위한 중간 학습(Mid-Training), 그리고 특정 작업의 정교화를 위한 사후 학습(Post-Training)으로 구성됩니다. 이러한 구조화된 접근 방식은 모델이 광범위한 의미론적 지식을 유지하는 동시에, 피지컬 AI 영역에서 정밀 조작 및 환경 탐색에 필요한 특화된 운동 능력을 습득할 수 있도록 보장합니다.
사전 학습(Pretraining) 단계에서 연구진은 웹 텍스트, 주행 데이터 및 상호작용 로그를 사용하여 시각-언어 모델(VLM)에 대한 대규모 학습을 수행합니다. 이 단계는 물리적 직관과 함께 의미론적 지식을 습득하는 데 중요합니다. 이어지는 중간 학습(Mid-Training) 단계에서는 플로우 매칭 액션 전문가를 도입합니다. 이 구성 요소는 VLM 위에 구축되어 고수준 추론과 로봇 제어의 세밀한 요구 사항을 조화시킵니다. 마지막으로, 사후 학습(Post-Training) 단계에서는 강화 학습과 RoboChallenge 벤치마크와 같은 특정 환경에서의 파인튜닝을 통해 모델이 전문적인 작업을 높은 신뢰도로 처리할 수 있도록 합니다.
DM0를 로봇 조작과 탐색 모두에 사용할 수 있나요?
DM0는 단일 프레임워크 내에서 로봇 조작과 탐색 작업을 통합함으로써 두 가지 모두를 수행할 수 있는 범용 모델로 설계되었습니다. 이 모델은 조작 능력을 평가하는 Table30 벤치마크에서 최고 수준의 성능을 달성하는 동시에, 연속적인 작업 흐름의 일부로서 환경을 탐색하고 물체와 상호작용할 수 있게 해주는 강력한 공간적 생각의 사슬(spatial Chain-of-Thought, CoT) 추론 능력을 보여줍니다.
과거에는 로봇 시스템이 사일로(silo) 방식으로 운영되었습니다. 즉, 한 모델은 A 지점에서 B 지점으로 이동(탐색)하는 것을 담당하고, 다른 모델은 물체를 집어 올리는 것(조작)을 담당했습니다. DM0는 이 두 가지를 모두 체화된 행동(embodied actions)으로 취급함으로써 이러한 장벽을 허뭅니다. 이러한 통합은 모델에 광범위한 환경 이동과 세밀한 시각-손 협응(hand-eye coordination)의 사례를 모두 제공하는 이종 데이터에 의해 구동됩니다. 실제 응용 분야에서 이는 DM0 기반 로봇이 주방을 돌아다니며 특정 과일을 찾은 다음, 각 단계의 저수준 물리학을 관리하면서 고수준의 목표 지향적 집중력을 유지하며 과일을 그릇에 정밀하게 배치할 수 있음을 의미합니다.
기술적 혁신: 플로우 매칭 액션 전문가
플로우 매칭 액션 전문가는 시각 및 언어 입력을 물리적 행동으로 매핑하여 정밀한 운동 궤적을 예측할 수 있게 해주는 특화된 아키텍처 구성 요소입니다. 이 메커니즘은 행동 작업의 그래디언트(gradient)가 핵심 VLM으로 역전파되지 않는 하이브리드 학습 전략을 사용합니다. 이를 통해 로봇이 특정 피지컬 AI 기술을 학습하는 동안 일반적인 추론 능력을 잃어버리는 "치명적 망각(catastrophic forgetting)"을 방지합니다.
- 그래디언트 격리: 행동 관련 그래디언트가 VLM을 변경하지 못하도록 함으로써, DM0는 나사를 돌리는 방법을 배우는 과정에서 복잡한 구두 지시를 이해하는 능력이 저하되지 않도록 보장합니다.
- 체화된 공간 스캐폴딩(Embodied Spatial Scaffolding): 이 전략은 생각의 사슬(Chain-of-Thought) 추론을 사용하여 "행동 솔루션 공간"을 제약함으로써, 로봇이 행동을 실행하기 전에 논리적으로 움직임을 계획하도록 돕습니다.
- 효율성 증대: 플로우 매칭 방식은 기존의 확산(diffusion) 기반 모델에 비해 학습 중 더 빠른 수렴을 가능하게 하여, 대규모 데이터셋에 대한 학습을 더욱 실용적으로 만듭니다.
피지컬 AI의 미래 시사점 및 RoboChallenge 성능
RoboChallenge 벤치마크에서 보여준 DM0의 성능은 가정용 및 산업용 범용 로봇의 표준이 될 수 있는 잠재력을 입증합니다. Table30의 전문가(Specialist) 및 일반론자(Generalist) 설정 모두에서 최고 수준의 결과를 달성함으로써, DM0는 체화 기반 모델이 케이블 연결부터 물품 분류에 이르기까지 방대한 작업을 최소한의 작업별 프로그래밍만으로 처리할 수 있음을 증명했습니다.
분야가 공간 지능(Spatial Intelligence)을 향해 나아감에 따라 DM0 프레임워크는 명확한 로드맵을 제시합니다. 다양한 상호작용 로그로부터 학습할 수 있는 능력은 더 많은 로봇이 세상에 나올수록 DM0와 같은 모델을 위한 데이터 풀이 기하급수적으로 늘어날 것임을 의미합니다. 이는 피지컬 AI가 인간 세계의 미묘한 차이를 이해하는 데 점점 더 능숙해지는 선순환을 만듭니다. 물리적 행동의 관점에서 "생각하는" 모델을 만들어낸 Hao Liu, Bin Xie, Yi Yang의 성공은 차세대 로봇이 단순히 작업을 수행하도록 프로그래밍되는 것이 아니라, 자신이 처한 환경에 대한 고유한 이해를 갖추게 될 것임을 시사합니다.
Comments
No comments yet. Be the first!