AI, 보행자의 다음 행동을 예측하다

인공지능
AI Predicts Pedestrians’ Next Move
'OmniPredict'라 불리는 새로운 멀티모달 AI는 GPT-4o 스타일의 대형 모델을 사용하여 보행자의 행동을 실시간으로 예측하며, 표준 벤치마크에서 기존 비전 시스템보다 뛰어난 성능을 보였습니다. 연구진은 이 시스템이 자율주행차 및 기타 기계가 인간을 고려해 경로를 계획하는 방식을 바꿀 수 있다고 설명하지만, 시스템이 "마음을 읽는다"는 주장에 대해서는 면밀한 검토가 필요합니다.

도시 거리에서 가장 안전한 찰나의 결정은 종종 내릴 필요조차 없는 결정인 경우가 많습니다. 이번 주, 텍사스 A&M(Texas A&M) 연구진과 한국의 공동 연구진은 도로 위의 사람을 포착하는 것을 넘어 그 사람이 다음에 무엇을 할지 추론하는 AI 시스템인 옴니프리딕트(OmniPredict)를 공개했습니다. Computers & Electrical Engineering에 게재된 논문에서 설명된 옴니프리딕트는 장면 이미지, 근접 뷰, 바운딩 박스, 차량 텔레메트리 및 간단한 행동 단서를 결합하여 보행자의 행동 가능성을 실시간으로 예측합니다.

단순 감지를 넘어 예측하는 모델

전통적인 자율주행 차량 스택은 인지와 계획을 분리합니다. 카메라와 라이다(lidar)가 물체를 감지하면, 하위 모듈이 제동이나 조향 방법을 결정하는 방식입니다. 옴니프리딕트는 이러한 경직된 파이프라인을 시각적 및 맥락적 입력을 융합하는 멀티모달 거대 언어 모델(MLLM) 아키텍처로 대체합니다. 이를 통해 보행자가 길을 건널지, 가려진 구역에서 멈출지, 차량을 쳐다볼지 또는 다른 행동을 할지에 대한 확률적 예측을 생성합니다. 실험실 테스트에서 연구팀은 기존 보행자 행동 벤치마크에서 약 67%의 예측 정확도를 보고했으며, 이는 최근의 최첨단(state-of-the-art) 방법들보다 약 10%포인트 향상된 수치입니다.

연구진은 이번 성과를 반응형 자동화에서 선제적 자율성으로의 전환으로 정의합니다. 프로젝트 리더는 "도시는 예측하기 어렵고, 보행자도 예측하기 어려울 수 있다"며, 보행자가 도로로 들어설 가능성을 예측하는 자동차는 더 일찍, 더 매끄럽게 계획을 세울 수 있어 잠재적으로 아차 사고(near-misses)를 줄일 수 있다고 언급했습니다. 그 결과물은 인간의 마음을 읽는 예언자가 아니라 자세, 머리 방향, 차폐 상태, 차량 속도와 같은 시각적 단서를 단기적인 움직임 예측으로 변환하는 통계적 엔진입니다.

옴니프리딕트가 장면을 읽는 법

기술적 핵심 측면에서 옴니프리딕트는 채팅 및 이미지 작업에 점점 더 많이 사용되는 아키텍처인 MLLM을 활용하여 비디오 프레임과 구조화된 맥락 신호를 해석하도록 적응시켰습니다. 입력값에는 광각 장면 이미지, 개별 보행자의 확대된 크롭 이미지, 바운딩 박스 좌표, 차량 속도와 같은 간단한 센서 데이터가 포함됩니다. 모델은 이러한 멀티모달 스트림을 함께 처리하고 주행 맥락에서 유용하다고 판단된 네 가지 행동 카테고리인 횡단, 차폐, 행동, 주시에 매핑합니다.

두 가지 특성이 중요합니다. 첫째, MLLM의 교차 모달 주의 집중(cross-modal attention) 기능 덕분에 별도의 수동 코딩 규칙 없이도 멀리 떨어진 신체 방향을 국부적인 제스처(예: 휴대전화를 내려다보며 상체를 돌리는 모습)와 연결할 수 있습니다. 둘째, 이 시스템은 일반화 능력을 갖춘 것으로 보입니다. 연구진은 별도의 데이터셋 전용 훈련 없이 보행자 행동에 관한 두 가지 까다로운 공개 데이터셋(JAAD 및 WiDEVIEW)에서 옴니프리딕트를 실행했으며, 여전히 최첨단 성능 이상의 결과를 얻었습니다. 이러한 일반화는 핵심적인 성과이며, 연구팀이 옴니프리딕트를 단순한 인지 단계 위에 놓인 "추론" 계층으로 설명하는 이유이기도 합니다.

벤치마크, 한계 및 현실과의 간극

벤치마크는 이야기의 한 단면만을 보여줍니다. 보고된 67%의 정확도와 최근 기준치 대비 10%의 향상은 학술적 비교에서는 의미가 있지만, 이것이 곧바로 실제 도로 주행 시의 안전으로 이어지는 것은 아닙니다. 벤치마크에는 실제 도시 주행보다 반복적인 패턴이 많고 시나리오 분포가 좁습니다. 드문 사건, 적대적 행동, 비정상적인 날씨 등은 시스템이 실험실을 벗어났을 때 모델의 가정을 무너뜨리는 경우가 많습니다.

비판적인 시각에서는 "인간의 마음을 읽는다"는 표현이 결과를 과장할 위험이 있다고 지적합니다. 모델의 예측은 과거 데이터에서 학습된 통계적 연관성에서 비롯됩니다. 즉, 훈련 세트의 유사한 시각적 맥락이 유사한 결과로 이어졌다는 것입니다. 이는 강력한 도구이지만, 인간의 의도나 내면의 정신 상태에 접근하는 것과는 다릅니다. 실제로 보행자는 지역 문화, 거리 설계, 사회적 신호의 영향을 받으며, 이러한 층위를 고려하지 않는 AI는 확신에 차 있더라도 틀린 예측을 내놓을 수 있습니다.

안전, 프라이버시 및 행동 피드백

차량이 보행자의 행동을 예상하고 계획을 세우면, 그에 반응하여 인간의 행동이 변할 수 있습니다. 이는 때때로 행동 피드백 루프(behavioural feedback loop)라고 불리는 지점입니다. 자동차가 자신을 예상할 것임을 아는 사람들은 더 위험을 감수하거나 반대로 더 경계하게 될 수 있으며, 이러한 역학 관계는 모델이 의존하는 통계적 관계를 변화시킬 수 있습니다. 따라서 지속적인 현장 검증이 필수적입니다.

또한 시각적 및 맥락적 단서에 대한 시스템의 의존도는 개인정보 보호 및 공정성 문제를 제기합니다. 도시 영상으로 훈련된 모델은 누가, 어떤 조건에서, 어떤 카메라로 촬영되었는지 등 데이터셋의 편향과 사각지대를 그대로 물려받는 경우가 많습니다. 특정 피부색, 의복 유형 또는 체형에 대한 감지 능력이 떨어지면 인구 집단에 따라 예측 품질이 달라질 수 있습니다. 따라서 엔지니어링 팀은 데이터셋의 다양성, 모델 실패 모드에 대한 투명성, 편향된 행동을 감사하고 완화하기 위한 절차를 우선시해야 합니다.

멀티모달 LLM에서 뇌 영감 아키텍처까지

이 비유는 문자 그대로라기보다 개념적입니다. 현재의 AI는 인간의 의식이나 실제 의도의 메커니즘을 복제하지 않습니다. 그러나 네트워크가 정보를 전달하고 특수 모듈을 형성하는 방식인 신경 조직에서 영감을 얻으면, 엔지니어들이 혼란스러운 도시 거리에서 속도, 견고성, 적응성의 균형을 더 잘 맞추는 시스템을 설계하는 데 도움이 될 수 있습니다.

실제 배포 전 해결 과제

옴니프리딕트는 완성된 자율주행 스택이 아니라 연구용 프로토타입입니다. 실제 차량에 배치하기 전에는 장기적인 현장 테스트, 코너 케이스(corner cases)에서의 엄격한 안전 검증, 행동 예측이 주행 계획에 어떤 영향을 미쳐야 하는지를 보여주는 통합 테스트가 필요합니다. 규제 당국과 제조업체 또한 시스템이 인간의 행동을 예측할 때 허용 가능한 오탐(false-positive) 및 미탐(false-negative) 비율에 대한 기준을 결정해야 합니다. 이러한 절충안은 안전과 직결되는 문제입니다.

마지막으로, 이 프로젝트는 응용 AI의 반복되는 진실을 강조합니다. 정제된 테스트에서의 정확도는 필요조건이지만 충분조건은 아닙니다. 실제 시스템은 감사가 가능하고 공정하며 분포 변화에 견고해야 하며, 불확실한 상황에서는 안전하게 성능을 낮춰야 합니다. 기계가 인간의 움직임을 "예상"한다는 전망은 도시 교통의 안전과 흐름 측면에서 매력적이지만, 자동차가 그러한 예측을 바탕으로 되돌릴 수 없는 결정을 내리기 전에 해결해야 할 기술적, 윤리적, 법적 문제를 수반합니다.

텍사스 A&M과 파트너들의 연구는 인지, 맥락, 행동 추론이 자율 시스템의 분리할 수 없는 구성 요소가 될 가까운 미래를 시사합니다. 그 미래는 새로운 예측 계층이 보수적인 안전 설계, 세심한 테스트, 투명성과 책임에 대한 명확한 규칙과 결합될 때만 더 안전해질 것입니다.

출처

  • Computers & Electrical Engineering (옴니프리딕트 연구 논문)
  • Texas A&M University College of Engineering
  • 한국과학기술원(KAIST)
  • Nature Machine Intelligence (뉴로모픽 네트워크 연구)
  • 맥길 대학교 / 더 뉴로(몬트리올 신경학 연구소-병원)
Mattias Risberg

Mattias Risberg

Cologne-based science & technology reporter tracking semiconductors, space policy and data-driven investigations.

University of Cologne (Universität zu Köln) • Cologne, Germany

Readers

Readers Questions Answered

Q OmniPredict란 무엇이며 어떤 역할을 하나요?
A OmniPredict는 대규모 언어 모델 아키텍처를 사용하여 시각적 입력과 문맥적 신호를 융합하고 보행자의 다음 움직임을 실시간으로 예측하는 멀티모달 AI 시스템입니다. 이 시스템은 광각 장면 이미지, 보행자의 근접 크롭 이미지, 바운딩 박스 좌표, 차량 텔레메트리 데이터를 수신하여 길 건너기, 가려진 구역에서의 정지, 시선 이동과 같은 행동에 대한 확률론적 예측을 출력합니다.
Q OmniPredict는 보행자 행동을 어떻게 분류하나요?
A OmniPredict는 멀티모달 입력을 주행과 관련된 네 가지 행동 카테고리인 횡단, 차폐, 행동, 시선으로 매핑합니다. 이 모델은 교차 모드 주의 집중(cross-modal attention)을 사용하여 멀리 떨어진 신체 방향과 국부적인 제스처를 연결함으로써, 수동으로 작성된 규칙 없이도 예측을 수행할 수 있게 하며 자세, 머리 방향, 문맥의 조합을 통해 단기적인 움직임을 추론합니다.
Q 벤치마크 성능은 어느 정도이며, 주의할 점은 무엇인가요?
A 실험실 테스트에서 OmniPredict는 JAAD 및 WiDEVIEW 벤치마크에서 약 67%의 예측 정확도를 달성했으며, 이는 최근의 베이스라인보다 약 10%포인트 높은 수치입니다. 하지만 벤치마크 성능이 도로 안전으로 자동 연결되지는 않습니다. 이러한 데이터셋은 시나리오 분포가 좁고, 실제 주행에서는 모델에 도전 과제가 되는 희귀 사례나 적대적 조건이 발생할 수 있기 때문입니다. 연구진은 훈련 데이터를 넘어선 일반화 능력을 주요 성과로 강조하고 있습니다.
Q 배포 전에 어떤 과정이 필요하며, 우려 사항은 무엇인가요?
A 배포 전 OmniPredict는 장기 현장 시험, 코너 케이스에 대한 엄격한 안전 검증, 그리고 예측이 경로 계획에 미치는 영향을 보여주는 통합 테스트가 필요한 연구 프로토타입 단계에 머물러 있습니다. 또한 이 연구는 허용 가능한 허위 양성(false-positive) 및 허위 음성(false-negative) 비율에 대한 표준, 편향과 개인정보 보호에 대한 지속적인 감사, 그리고 사람들이 예측 시스템 주변에서 행동 방식을 바꾸는 행동 피드백 루프의 가능성에 대한 대책을 촉구하고 있습니다.
Q OmniPredict는 마음을 읽거나 내부의 심리 상태에 접근하나요?
A OmniPredict가 독심술을 하는 것일까요? 연구진은 이 시스템이 내부의 의도나 의식에 접근하는 것이 아니라고 강조합니다. 대신 과거 데이터로부터 학습된 시각적 단서와 문맥 데이터를 단기 움직임에 대한 통계적 예측으로 변환하는 것이며, 이는 상황이 훈련 패턴과 다를 경우 확신에 차 있더라도 틀린 예측을 내놓을 수 있습니다.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!