도시 거리에서 가장 안전한 찰나의 결정은 종종 내릴 필요조차 없는 결정인 경우가 많습니다. 이번 주, 텍사스 A&M(Texas A&M) 연구진과 한국의 공동 연구진은 도로 위의 사람을 포착하는 것을 넘어 그 사람이 다음에 무엇을 할지 추론하는 AI 시스템인 옴니프리딕트(OmniPredict)를 공개했습니다. Computers & Electrical Engineering에 게재된 논문에서 설명된 옴니프리딕트는 장면 이미지, 근접 뷰, 바운딩 박스, 차량 텔레메트리 및 간단한 행동 단서를 결합하여 보행자의 행동 가능성을 실시간으로 예측합니다.
단순 감지를 넘어 예측하는 모델
전통적인 자율주행 차량 스택은 인지와 계획을 분리합니다. 카메라와 라이다(lidar)가 물체를 감지하면, 하위 모듈이 제동이나 조향 방법을 결정하는 방식입니다. 옴니프리딕트는 이러한 경직된 파이프라인을 시각적 및 맥락적 입력을 융합하는 멀티모달 거대 언어 모델(MLLM) 아키텍처로 대체합니다. 이를 통해 보행자가 길을 건널지, 가려진 구역에서 멈출지, 차량을 쳐다볼지 또는 다른 행동을 할지에 대한 확률적 예측을 생성합니다. 실험실 테스트에서 연구팀은 기존 보행자 행동 벤치마크에서 약 67%의 예측 정확도를 보고했으며, 이는 최근의 최첨단(state-of-the-art) 방법들보다 약 10%포인트 향상된 수치입니다.
연구진은 이번 성과를 반응형 자동화에서 선제적 자율성으로의 전환으로 정의합니다. 프로젝트 리더는 "도시는 예측하기 어렵고, 보행자도 예측하기 어려울 수 있다"며, 보행자가 도로로 들어설 가능성을 예측하는 자동차는 더 일찍, 더 매끄럽게 계획을 세울 수 있어 잠재적으로 아차 사고(near-misses)를 줄일 수 있다고 언급했습니다. 그 결과물은 인간의 마음을 읽는 예언자가 아니라 자세, 머리 방향, 차폐 상태, 차량 속도와 같은 시각적 단서를 단기적인 움직임 예측으로 변환하는 통계적 엔진입니다.
옴니프리딕트가 장면을 읽는 법
기술적 핵심 측면에서 옴니프리딕트는 채팅 및 이미지 작업에 점점 더 많이 사용되는 아키텍처인 MLLM을 활용하여 비디오 프레임과 구조화된 맥락 신호를 해석하도록 적응시켰습니다. 입력값에는 광각 장면 이미지, 개별 보행자의 확대된 크롭 이미지, 바운딩 박스 좌표, 차량 속도와 같은 간단한 센서 데이터가 포함됩니다. 모델은 이러한 멀티모달 스트림을 함께 처리하고 주행 맥락에서 유용하다고 판단된 네 가지 행동 카테고리인 횡단, 차폐, 행동, 주시에 매핑합니다.
두 가지 특성이 중요합니다. 첫째, MLLM의 교차 모달 주의 집중(cross-modal attention) 기능 덕분에 별도의 수동 코딩 규칙 없이도 멀리 떨어진 신체 방향을 국부적인 제스처(예: 휴대전화를 내려다보며 상체를 돌리는 모습)와 연결할 수 있습니다. 둘째, 이 시스템은 일반화 능력을 갖춘 것으로 보입니다. 연구진은 별도의 데이터셋 전용 훈련 없이 보행자 행동에 관한 두 가지 까다로운 공개 데이터셋(JAAD 및 WiDEVIEW)에서 옴니프리딕트를 실행했으며, 여전히 최첨단 성능 이상의 결과를 얻었습니다. 이러한 일반화는 핵심적인 성과이며, 연구팀이 옴니프리딕트를 단순한 인지 단계 위에 놓인 "추론" 계층으로 설명하는 이유이기도 합니다.
벤치마크, 한계 및 현실과의 간극
벤치마크는 이야기의 한 단면만을 보여줍니다. 보고된 67%의 정확도와 최근 기준치 대비 10%의 향상은 학술적 비교에서는 의미가 있지만, 이것이 곧바로 실제 도로 주행 시의 안전으로 이어지는 것은 아닙니다. 벤치마크에는 실제 도시 주행보다 반복적인 패턴이 많고 시나리오 분포가 좁습니다. 드문 사건, 적대적 행동, 비정상적인 날씨 등은 시스템이 실험실을 벗어났을 때 모델의 가정을 무너뜨리는 경우가 많습니다.
비판적인 시각에서는 "인간의 마음을 읽는다"는 표현이 결과를 과장할 위험이 있다고 지적합니다. 모델의 예측은 과거 데이터에서 학습된 통계적 연관성에서 비롯됩니다. 즉, 훈련 세트의 유사한 시각적 맥락이 유사한 결과로 이어졌다는 것입니다. 이는 강력한 도구이지만, 인간의 의도나 내면의 정신 상태에 접근하는 것과는 다릅니다. 실제로 보행자는 지역 문화, 거리 설계, 사회적 신호의 영향을 받으며, 이러한 층위를 고려하지 않는 AI는 확신에 차 있더라도 틀린 예측을 내놓을 수 있습니다.
안전, 프라이버시 및 행동 피드백
차량이 보행자의 행동을 예상하고 계획을 세우면, 그에 반응하여 인간의 행동이 변할 수 있습니다. 이는 때때로 행동 피드백 루프(behavioural feedback loop)라고 불리는 지점입니다. 자동차가 자신을 예상할 것임을 아는 사람들은 더 위험을 감수하거나 반대로 더 경계하게 될 수 있으며, 이러한 역학 관계는 모델이 의존하는 통계적 관계를 변화시킬 수 있습니다. 따라서 지속적인 현장 검증이 필수적입니다.
또한 시각적 및 맥락적 단서에 대한 시스템의 의존도는 개인정보 보호 및 공정성 문제를 제기합니다. 도시 영상으로 훈련된 모델은 누가, 어떤 조건에서, 어떤 카메라로 촬영되었는지 등 데이터셋의 편향과 사각지대를 그대로 물려받는 경우가 많습니다. 특정 피부색, 의복 유형 또는 체형에 대한 감지 능력이 떨어지면 인구 집단에 따라 예측 품질이 달라질 수 있습니다. 따라서 엔지니어링 팀은 데이터셋의 다양성, 모델 실패 모드에 대한 투명성, 편향된 행동을 감사하고 완화하기 위한 절차를 우선시해야 합니다.
멀티모달 LLM에서 뇌 영감 아키텍처까지
이 비유는 문자 그대로라기보다 개념적입니다. 현재의 AI는 인간의 의식이나 실제 의도의 메커니즘을 복제하지 않습니다. 그러나 네트워크가 정보를 전달하고 특수 모듈을 형성하는 방식인 신경 조직에서 영감을 얻으면, 엔지니어들이 혼란스러운 도시 거리에서 속도, 견고성, 적응성의 균형을 더 잘 맞추는 시스템을 설계하는 데 도움이 될 수 있습니다.
실제 배포 전 해결 과제
옴니프리딕트는 완성된 자율주행 스택이 아니라 연구용 프로토타입입니다. 실제 차량에 배치하기 전에는 장기적인 현장 테스트, 코너 케이스(corner cases)에서의 엄격한 안전 검증, 행동 예측이 주행 계획에 어떤 영향을 미쳐야 하는지를 보여주는 통합 테스트가 필요합니다. 규제 당국과 제조업체 또한 시스템이 인간의 행동을 예측할 때 허용 가능한 오탐(false-positive) 및 미탐(false-negative) 비율에 대한 기준을 결정해야 합니다. 이러한 절충안은 안전과 직결되는 문제입니다.
마지막으로, 이 프로젝트는 응용 AI의 반복되는 진실을 강조합니다. 정제된 테스트에서의 정확도는 필요조건이지만 충분조건은 아닙니다. 실제 시스템은 감사가 가능하고 공정하며 분포 변화에 견고해야 하며, 불확실한 상황에서는 안전하게 성능을 낮춰야 합니다. 기계가 인간의 움직임을 "예상"한다는 전망은 도시 교통의 안전과 흐름 측면에서 매력적이지만, 자동차가 그러한 예측을 바탕으로 되돌릴 수 없는 결정을 내리기 전에 해결해야 할 기술적, 윤리적, 법적 문제를 수반합니다.
텍사스 A&M과 파트너들의 연구는 인지, 맥락, 행동 추론이 자율 시스템의 분리할 수 없는 구성 요소가 될 가까운 미래를 시사합니다. 그 미래는 새로운 예측 계층이 보수적인 안전 설계, 세심한 테스트, 투명성과 책임에 대한 명확한 규칙과 결합될 때만 더 안전해질 것입니다.
출처
- Computers & Electrical Engineering (옴니프리딕트 연구 논문)
- Texas A&M University College of Engineering
- 한국과학기술원(KAIST)
- Nature Machine Intelligence (뉴로모픽 네트워크 연구)
- 맥길 대학교 / 더 뉴로(몬트리올 신경학 연구소-병원)
Comments
No comments yet. Be the first!