통합된 시각: OpenVision 3가 AI 인식과 생성 사이의 격차를 해소하는 방법
지난 수년간 인공지능 분야는 기계가 시각 정보를 처리하는 방식에 있어 근본적인 분리에 의해 정의되어 왔습니다. 이미지를 설명하기 위해 모델은 고수준 의미론에 초점을 맞춘 판별 구조(discriminative architecture)를 필요로 하며, 이미지를 생성하기 위해서는 저수준 픽셀 분포에 초점을 맞춘 생성 구조(generative architecture)가 필요합니다. 이러한 이원화된 접근 방식은 개발자들이 분리된, 종종 중복되는 신경망 파이프라인을 유지하게 함으로써 상당한 계산 오버헤드를 발생시켰습니다. 그러나 UC Santa Cruz, Johns Hopkins University, NVIDIA 및 기타 선도적인 기관의 연구진은 단일화된 공유 잠재 공간(latent space) 내에서 시각적 이해와 이미지 합성을 모두 마스터한 통합 엔코더 프레임워크인 OpenVision 3를 선보였습니다. 이러한 돌파구는 멀티모달 시스템을 위한 "보편적인 눈"이 가능할 뿐만 아니라 현재 사용되는 파편화된 모델보다 더 효율적이라는 점을 시사합니다.
인공 시각의 이분화
컴퓨터 비전에서 이해와 생성 사이의 역사적 구분은 각 작업의 목적이 다르다는 점에 뿌리를 두고 있습니다. OpenAI의 CLIP과 같은 이해 모델은 이미지를 텍스트에 매핑하도록 훈련되며, "개"나 "석양"과 같은 추상적인 개념에 집중하기 위해 "불필요한" 픽셀 수준의 세부 사항을 제거합니다. 반대로 Stable Diffusion을 구동하는 것과 같은 생성 모델은 질감과 조명을 정확하게 재구성하기 위해 바로 그 세부 사항에 집착해야 합니다. 통합 멀티모달 모델(UMM)을 추구하는 과정에서 연구자들은 이전까지 동일한 이미지를 두 번 인코딩하여 두 개의 서로 다른 토큰 세트를 생성하는 UniFluid나 BAGEL과 같은 "이중 토크나이저" 시스템에 의존해 왔습니다. 이러한 방식은 기능적으로는 작동하지만, 중복성으로 인해 시스템 복잡성이 증가하고 모델이 세상을 인식하는 방식과 상상하는 방식 사이의 시너지를 제한합니다.
Letian Zhang과 Sucheng Ren을 포함한 연구팀에 따르면, OpenVision 3의 개발은 "플라톤적 표현 가설(Platonic Representation Hypothesis)"에 근거를 두고 있습니다. 이 이론은 서로 다른 데이터 모달리티가 공유된 근본적인 현실을 반영하며, 통합된 표현을 학습함으로써 서로 다른 작업 간에 상호 이익을 얻을 수 있다고 가정합니다. 특징들의 경직된 "코드북(codebooks)"에 의존하는 VQ-GAN과 같은 기존 통합 토크나이저에서 발견되는 이산화 오류에서 벗어나, OpenVision 3는 의미론적 의미를 포착하면서도 원본 이미지의 풍부함을 유지하는 연속적인 잠재 공간을 활용합니다.
OpenVision 3 아키텍처: 단순하지만 강력한 전환
OpenVision 3의 아키텍처는 우아할 정도로 단순합니다. 먼저 이미지를 변이형 오토인코더(VAE)에 통과시켜 잠재 변수(latents)로 압축하는 것으로 시작합니다. 그런 다음 이 잠재 변수들은 비전 트랜스포머(ViT) 엔코더에 입력됩니다. 이 설계의 천재성은 ViT 엔코더의 출력에 일어나는 일에 있습니다. 출력값은 두 개의 상호 보완적인 훈련 브랜치로 동시에 전달됩니다. 첫 번째는 생성 브랜치로, ViT-VAE 디코더가 엔코더의 토큰으로부터 원본 이미지를 재구성하려고 시도합니다. 이는 엔코더가 고충실도 합성에 필요한 미세하고 저수준인 시각 정보를 보존하도록 강제합니다.
두 번째 브랜치는 이해를 전담합니다. 여기서 동일한 표현은 대조 학습(contrastive learning)과 이미지 캡셔닝 목표를 통해 최적화됩니다. 텍스트 토큰을 자기회귀적으로 예측하거나 이미지 특징을 텍스트 설명과 정렬함으로써 모델은 프레임에 존재하는 고수준 개념을 학습합니다. 이러한 이중 경로 전략은 결과물인 통합 토크나이저가 픽셀과 산문(텍스트)의 언어를 모두 구사할 수 있는 "다국어" 능력을 갖추도록 보장합니다. 연구진은 이 설계가 이해를 위해 생성 품질을 희생하거나 그 반대의 경우를 초래했던 이전 통합 모델들의 일반적인 함정을 피했다고 언급했습니다.
잠재 공간에서의 시너지
OpenVision 3 논문에서 가장 인상적인 발견 중 하나는 두 훈련 신호 사이의 "유의미한 시너지(non-trivial synergy)"에 대한 증거입니다. 전통적인 통념으로는 재구성 작업을 추가하면 엔코더의 의미론적 집중도가 희석될 수 있다고 생각합니다. 그러나 Zhang, Zheng, Xie는 그 반대의 결과를 발견했습니다. 이해 손실(understanding loss)만을 최적화하는 것이 실제로는 모델의 이미지 재구성 능력을 향상시켰고, 재구성을 위한 최적화는 의미론적 정렬에 도움이 되었습니다. 이는 대상이 무엇인지 "이해"하는 것이 모델이 그것을 더 정확하게 "그리는" 데 도움이 되며, 대상을 "그리는" 것이 모델이 그 결정적인 특징을 이해하는 데 도움이 된다는 것을 시사합니다.
이 통합 설계를 검증하기 위해 연구진은 엔코더를 "고정(frozen)"한 상태에서 광범위한 평가를 수행했습니다. 즉, 학습된 표현이 특정 작업에 추가로 적응하지 못하도록 한 것입니다. 이는 표현의 본질적인 품질을 측정하는 엄격한 테스트입니다. 멀티모달 대화를 위한 대중적인 모델인 LLaVA-1.5 프레임워크에 연결했을 때, OpenVision 3의 통합 토큰은 CLIP이 생성하는 특화된 의미론적 토큰만큼 효과적인 것으로 입증되었습니다. 이는 생성 데이터의 포함이 의미론적 공간을 "어지럽히는" 것이 아니라 오히려 풍부하게 만들었음을 나타냅니다.
성능 및 벤치마크
OpenVision 3의 실증적 결과는 매우 설득력 있으며, 특히 OpenAI의 CLIP-L/14와 같은 산업 표준과 비교했을 때 더욱 그렇습니다. 멀티모달 이해 벤치마크에서 OpenVision 3는 SeedBench에서 62.4점, POPE에서 83.7점을 기록하여 표준 CLIP 엔코더(각각 62.2점 및 82.9점)를 약간 상회했습니다. 이러한 지표는 "환각 현상(hallucinations)"에 빠지지 않고 공간적 관계를 추론하고 객체를 식별하는 AI의 능력을 평가하는 데 중요합니다.
OpenVision 3의 장점은 생성 작업에서 더욱 분명해졌습니다. ImageNet 데이터셋에서 RAE(Reconstructive Auto-Encoder) 프레임워크 하에 테스트한 결과, 모델은 1.89의 생성 프레셰 인셉션 거리(gFID)를 달성하여 표준 CLIP 기반 엔코더가 기록한 2.54 gFID를 실질적으로 능가했습니다. 또한 재구성 품질(rFID)에서도 OpenVision 3는 0.22를 기록하여 가장 가까운 경쟁 모델의 0.36보다 뛰어난 성능을 보이며 기존 통합 토크나이저를 압도했습니다. 이러한 수치는 단일 모델이 이전에 분리되었던 두 영역에서 모두 최고 수준의 성능을 발휘할 수 있게 됨에 따라 효율성 면에서 큰 도약을 의미합니다.
비교 성능 지표:
- SeedBench (이해): OpenVision 3 (62.4) vs. CLIP-L/14 (62.2)
- POPE (객체 일관성): OpenVision 3 (83.7) vs. CLIP-L/14 (82.9)
- ImageNet gFID (생성): OpenVision 3 (1.89) vs. CLIP 기반 (2.54)
- ImageNet rFID (재구성): OpenVision 3 (0.22) vs. 기존 통합 모델 (0.36)
AGI로 가는 길: 통합 모델링이 핵심인가?
OpenVision 3의 성공은 인공 일반 지능(AGI) 추구에 심오한 시사점을 던집니다. 인간의 생물학적 시각 시스템은 인식과 정신적 이미지를 위해 별도의 엔코더를 작동시키지 않습니다. 나무를 지각하는 동일한 시각 피질이 나무를 상상하는 일도 주로 담당합니다. 이러한 생물학적 효율성을 모방함으로써 OpenVision 3는 지각과 창조가 동전의 양면과 같은 전체론적 형태의 지능에 AI를 더 가깝게 만듭니다. 이러한 통합은 복잡한 환경을 인식한 다음 그 환경 내에서 잠재적 행동에 대한 계획이나 시각적 시뮬레이션을 생성해야 하는 미래의 범용 AI 에이전트에게 필수적일 것으로 보입니다.
성능 외에도 메모리 및 처리 요구 사항의 감소는 주요한 실질적 이점입니다. 두 개 대신 단일 엔코더를 사용함으로써 개발자는 멀티모달 모델의 점유 공간을 크게 줄일 수 있으며, 이를 통해 엣지 디바이스나 실시간 로보틱스에 더 쉽게 배포할 수 있습니다. 연구팀은 OpenVision 3가 "통합 모델링에 대한 미래 연구를 자극"하여 업계가 과거의 짜깁기식 "프랑켄슈타인" 모델에서 벗어나 더 우아하고 통합된 아키텍처로 나아가기를 희망하고 있습니다.
통합 시각의 다음 단계
앞으로 UC Santa Cruz, JHU, NVIDIA의 연구원들은 이러한 통합 접근 방식을 더 큰 데이터셋과 비디오 및 3D 환경과 같은 더 다양한 모달리티로 확장하는 것이 다음 과제라고 제안합니다. OpenVision 3는 2D 이해와 생성 사이의 균형을 마스터했지만, 비디오를 위한 시공간적 일관성(temporal consistency)의 통합은 여전히 과제로 남아 있습니다. 또한 이러한 통합 표현이 모델이 단 몇 가지 예시만으로 새로운 작업을 배우는 "인컨텍스트 학습(in-context learning)"에 어떻게 사용될 수 있는지 탐구하는 것은 AI 에이전트의 적응력을 새로운 수준으로 끌어올릴 수 있습니다.
OpenVision 3 엔코더 제품군의 출시는 컴퓨터 비전의 전환점을 의미합니다. 이는 "보는 것"과 "만드는 것" 사이의 절충안이 잘못된 이분법임을 증명합니다. AI가 계속 진화함에 따라, 성공하는 모델은 OpenVision 3와 같이 세상의 있는 그대로를 이해하는 것과 세상의 있을 법한 모습을 상상하는 것 사이의 공통 분모를 찾는 모델이 될 것입니다.
Comments
No comments yet. Be the first!