효율성의 돌파구: 소형 AI 모델이 뇌 MRI 분석에서 거대 모델을 능가한 방법

Breaking News 기술
Translucent glass brain sculpture glowing with blue internal fiber optics against a black background
4K Quality
의료용 파운데이션 모델 개발 경쟁이 치열한 가운데, 연구진은 방대한 계산 규모만이 성공의 유일한 길은 아님을 입증했습니다. 해부학적 사전 정보와 신경 영상 분야의 전문 지식을 활용한 소형 신경망 구조가 훨씬 더 큰 트랜스포머 기반 모델들을 제치고 MICCAI 2025 뇌 MRI 챌린지에서 1위를 차지했습니다.

인공지능이 급격하게 발전하는 환경 속에서, GPT나 DINO와 같은 거대 트랜스포머 모델의 성공에 힘입어 "클수록 좋다(bigger is better)"는 격언이 담론을 지배해 왔습니다. 그러나 높은 정확도가 요구되는 의료 영상 분야에서 발생한 새로운 돌파구는 단순히 계산 규모를 키우는 것보다 전략적 효율성과 도메인 지식이 더 가치 있을 수 있음을 시사합니다. Pedro M. Gordaliza, Jaume Banus, Benoît Gérin이 이끄는 연구팀은 복잡한 3D 뇌 MRI 분석 작업에서 작고 전문화된 모델이 거대 모델과 대등하게 경쟁할 뿐만 아니라 성능 면에서 이를 훨씬 앞설 수 있음을 입증했습니다.

뇌 MRI 파운데이션 모델의 부상

파운데이션 모델(Foundation models, FM)은 인공지능의 패러다임 변화를 상징합니다. 단일한 특정 작업을 위해 훈련된 기존 모델과 달리, 파운데이션 모델은 자기지도학습(SSL)을 사용하여 방대한 미라벨링 데이터셋으로 사전 훈련되므로, 최소한의 라벨링 데이터만으로도 다양한 다운스트림 애플리케이션에 맞춰 미세 조정될 수 있습니다. 이러한 모델은 자연어 처리와 2D 컴퓨터 비전 분야에 혁신을 일으켰지만, 3D 의료 영상, 특히 신경 영상에 적용하는 것은 여전히 난제로 남아 있었습니다. 뇌의 해부학적 복잡성은 볼륨 기반 MRI 데이터의 고차원적 특성 및 획득 프로토콜의 가변성과 결합되어 표준 AI 아키텍처에 독특한 병목 현상을 만들어냅니다.

이러한 장벽을 해결하기 위해 의료 영상 커뮤니티는 MICCAI 2025 컨퍼런스에서 두 개의 획기적인 경진대회인 '3D 의료 영상을 위한 자기지도학습 챌린지(SSL3D)'와 '뇌 MRI를 위한 파운데이션 모델 챌린지(FOMO25)'를 개최했습니다. 이 대회들은 파운데이션 모델이 이종 임상 데이터셋 전체에 걸쳐 얼마나 잘 일반화될 수 있는지를 평가하는 최초의 엄격하고 표준화된 벤치마크 역할을 했습니다. SSL3D 챌린지만 해도 800개의 서로 다른 데이터셋에서 수집된 34,191명의 피험자로부터 얻은 114,000개 이상의 3D 볼륨이라는 전례 없는 규모의 데이터셋을 구축했습니다. Lausanne University Hospital (CHUV), University of Lausanne (UNIL), CIBM Center for Biomedical Imaging 등의 기관을 대표하는 연구팀은 이 경쟁의 장에서 놀라울 정도로 군더더기 없는 접근 방식을 사용하여 1위를 차지했습니다.

소형 AI vs. 거대 트랜스포머

연구팀의 성공에서 가장 눈에 띄는 발견 중 하나는 현재 유행하는 트랜스포머 기반 모델보다 합성곱 신경망(CNN), 특히 U-Net 아키텍처가 여전히 우위를 점하고 있다는 점입니다. FOMO25 및 SSL3D 챌린지에서 트랜스포머 기반 제출물 중 우승을 차지한 CNN 방식의 성능을 따라잡은 모델은 없었습니다. 이러한 차이는 결정적인 기술적 한계를 드러냅니다. 트랜스포머는 2D나 텍스트 기반 작업에서는 강력하지만, 3D 볼륨 토큰화에 의해 생성되는 방대한 토큰 수를 처리할 때 이차 복잡도(quadratic complexity) 문제로 어려움을 겪습니다. 이는 모델이 효과적으로 관리할 수 있는 공간 해상도와 컨텍스트를 제한하는 계산 병목 현상을 야기합니다.

연구팀의 모델은 ViT-L DINOv2 3D와 같은 경쟁 트랜스포머 기반 접근 방식보다 약 10배 작으면서도 최고 수준의 성능을 달성했습니다. 거대 모델들이 흔히 수억 개의 파라미터를 자랑하는 반면, 우승한 CNN 기반 아키텍처는 단 2,000만 개의 파라미터만을 사용했습니다. 이러한 작은 규모에도 불구하고, 연구팀은 트랜스포머 기반 경쟁 모델들에 비해 세그멘테이션 작업에서 평균 Dice 점수가 2.5% 더 높았고, 분류 작업에서는 정확도가 8% 향상되었다고 보고했습니다. 이는 일반적인 방법이 결국 규모를 통해 승리한다는 AI의 "쓰라린 교훈(bitter lesson)"이 자원이 제한적이고 복잡한 3D 의료 영상의 세계에는 아직 적용되지 않을 수 있음을 시사합니다.

도메인 지식의 힘

연구팀의 성공 비결은 해부학적 사전 정보(anatomical priors)와 신경 영상 도메인 지식을 모델 아키텍처에 통합한 데 있었습니다. Gordaliza, Banus, Gérin은 3D 볼륨을 일반적인 데이터 포인트로 취급하는 대신, 피험자 불변 해부학적 구조를 대비(contrast)별 병리적 특징과 분리하도록 시스템을 설계했습니다. 특정 해부학적 특징이 서로 다른 MRI 대비(T1 강조 또는 T2 강조 영상 등)와 시점에서도 일관되게 유지된다는 점을 모델이 인식하도록 강제함으로써, 신경망이 가짜 상관관계를 학습하거나 계산적 지름길을 택하지 않도록 하는 "귀납적 편향(inductive bias)"을 제공한 것입니다.

SSL3D 챌린지를 위해 연구진은 학습된 표현을 두 개의 별도 구성 요소로 나누었습니다. 하나는 단일 피험자의 모든 이미지에서 해부학적 세그멘테이션과 일치하도록 제한된 요소이고, 다른 하나는 병리를 감지하도록 최적화된 요소입니다. FOMO25 트랙에서는 사전 훈련 중에 동일 피험자의 서로 다른 스캔 간에 표현을 교체하는 교차 대비 재구성 목표를 구현했습니다. 이러한 도메인 특화 가이드를 통해 모델은 다양한 스캐너 제조사나 획득 설정의 노이즈에 빠지지 않고, 임상적 맥락에서 진정으로 중요한 근본적인 생물학적 실체에 집중할 수 있었습니다.

속도 및 효율성 벤치마크

이 연구의 실질적인 시사점은 정확도 점수를 넘어섭니다. 효율성 측면에서의 이득 또한 혁신적입니다. 연구팀은 자신들의 모델이 트랜스포머 대안 모델보다 수십에서 수백 배 더 빠르게 훈련되었다고 보고했습니다. FOMO25 챌린지에서 CNN 모델은 사전 훈련에 36 GPU 시간 미만이 소요된 반면, 거대 트랜스포머 모델은 100에서 1,000시간이 필요했습니다. 이러한 훈련 시간 단축은 연구 속도를 높일 뿐만 아니라 고성능 의료 AI 개발과 관련된 탄소 발자국을 크게 줄여줍니다.

나아가, 이러한 "효율성 우선" 접근 방식은 파운데이션 모델에 대한 접근성을 대중화합니다. 70억 개의 파라미터를 가진 DINOv3와 같은 거대 모델은 산업 규모의 컴퓨팅 클러스터가 필요하지만, 연구팀의 2,000만 파라미터 모델은 소규모 연구 기관이나 병원에서도 접근 가능한 하드웨어에서 훈련 및 미세 조정이 가능합니다. 이러한 접근성은 대규모 서버 팜 없이도 모델을 로컬 하드웨어 제약과 특정 환자군에 맞춰 조정해야 하는 AI의 임상 배포에 있어 필수적입니다.

오픈 사이언스와 미래 시사점

오픈 사이언스를 향한 약속의 일환으로, 연구진은 우승 모델과 코드를 GitHub(jbanusco/BrainFM4Challenges)를 통해 공개했습니다. 이러한 도구를 공유함으로써 다른 연구자들이 활용할 수 있는 견고한 출발점을 제공하고, 일부에서 "의료용 범용 인공지능(AGI)"이라 부르는 기술의 발전을 가속화하는 것을 목표로 합니다. 연구팀의 작업은 이 분야에서 커지는 깨달음을 강조합니다. 즉, 보편적인 의료용 AI로 가는 길은 더 많은 파라미터가 아니라, 기존 의료 지식을 더 스마트하고 원칙적으로 활용하는 데 있을 수 있다는 점입니다.

앞으로 이러한 소형 모델의 성공은 의료 분야 AI의 미래 궤적에 중요한 질문을 던집니다. 트랜스포머가 더 방대한 데이터셋이나 더 효율적인 어텐션 메커니즘을 통해 결국 현재의 한계를 극복할 수 있을지는 지켜봐야 하겠지만, MICCAI 2025의 교훈은 명확합니다. 현재로서는 인간의 뇌를 분석하는 가장 효과적인 방법은 뇌의 구조를 근본부터 "이해"하는 AI를 구축하는 것입니다. 이 분야가 더 일반화 가능한 모델로 나아감에 따라, 종단적 궤적, 보완적 대비, 그리고 해부학적 사전 정보의 통합은 임상 AI 개발의 표준으로 남을 가능성이 높습니다.

James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Readers Questions Answered

Q 뇌 MRI 파운데이션 모델이란 무엇인가요?
A 뇌 MRI 파운데이션 모델은 대조 학습(contrastive learning)이나 마스크 오토인코딩(masked autoencoding)과 같은 자기 지도 학습 기술을 사용하여 다양한 뇌 MRI 데이터셋에서 보편적이고 일반화 가능한 표현을 추출하도록 설계된 대규모 사전 훈련 딥러닝 아키텍처입니다.[1][3] BrainIAC과 같은 이러한 모델은 진단, 분할(segmentation), 이상 탐지, 뇌 연령 예측 등을 포함한 하위 작업에 최소한의 미세 조정(fine-tuning)만으로 빠르게 적응할 수 있게 해주며, 건강한 스캔과 병리적 스캔 모두에서 전통적인 지도 학습 방식을 능가하는 성능을 보입니다.[1][3] 이들은 여러 모달리티, 제조사 및 센터를 아우르는 이종 데이터를 활용하여 임상적 견고함과 효율성을 향상시킵니다.[2][1]
Q 3D 의료 작업에서 CNN이 트랜스포머보다 더 효율적인 이유는 무엇인가요?
A CNN이 3D 의료 작업에서 트랜스포머(Transformers)보다 효율적인 주된 이유는 더 적은 파라미터와 감소된 FLOPs를 포함하여 계산 요구 사항이 낮기 때문입니다. 예를 들어, 3D U-Net은 58M개의 파라미터와 652 GFLOPs를 갖는 반면, PHTrans와 같은 하이브리드 트랜스포머는 비슷한 파라미터를 갖지만 일부 경우 FLOPs가 더 낮습니다. 순수 트랜스포머는 TransUNet이 12개의 트랜스포머 모듈을 추가하는 사례에서 볼 수 있듯이 종종 파라미터를 크게 증가시킵니다.[1][3][6] 이로 인해 CNN은 하이브리드 형태일 때 트랜스포머가 갖는 전역 모델링의 강점에도 불구하고, 자원이 제한된 임상 환경에 더 빠르고 적합합니다.[3][6]
Q 도메인 지식이 신경영상 분야의 AI 정확도를 어떻게 향상시키나요?
A 도메인 지식은 적절한 데이터 주석(annotation), 평가 지표, 관찰자 간 변동성 및 특이 사례(corner cases)와 같은 과제 처리를 가이드함으로써 신경영상에서 AI 정확도를 높이며, 불균형한 데이터나 잘못된 라벨링으로 인한 잘못된 높은 점수를 방지합니다[1]. 이는 수술 도구 분할 및 뇌 병변 탐지에서 모호한 지침이 오류를 유발하는 사례처럼 모델이 인공물(artifact)이 아닌 임상적으로 관련된 특징에 집중하도록 보장합니다[1]. 도메인 전문 지식을 통합하면 설명 가능성과 검증 기능도 향상되어, 의료 영상에서 블랙박스 AI 예측과 인간이 해석 가능한 결정 사이의 간극을 좁힐 수 있습니다[2].

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!