NVIDIA 연구진이 세계 최대 규모의 AI 시스템과 대등한 추론 능력을 갖춘 혁신적인 300억 매개변수 전문가 혼합(Mixture-of-Experts, MoE) 모델인 Nemotron-Cascade 2를 공식 발표했습니다. 추론 과정에서 단 30억 개의 매개변수만 활성화하는 고효율 아키텍처를 활용한 이 모델은 2025년 국제 수학 올림피아드(IMO), 국제 정보 올림피아드(IOI), ICPC 월드 파이널에서 금메달 수준의 성능을 입증했습니다. Grace Lam, Bryan Catanzaro, Mohammad Shoeybi가 저술한 이 연구는 소형 모델이 20배 더 많은 매개변수를 가진 프런티어 모델의 성능과 대등해지는 '지능 밀도(Intelligence Density)'로의 중대한 전환을 의미합니다.
인공지능에서 고차원적 추론을 추구하는 과정은 역사적으로 거대한 규모의 싸움이었습니다. 최근까지 엘리트 수준의 경쟁 수학 및 프로그래밍에 필요한 논리적 정밀도를 달성하는 것은 6,710억 개의 매개변수를 사용하는 DeepSeekV3.2와 같은 '프런티어' 모델의 전유물이었습니다. NVIDIA 팀은 이러한 패러다임에 도전하기 위해 Nemotron-Cascade 프로젝트를 시작했으며, 아키텍처의 효율성과 정교한 사후 학습 기술을 통해 훨씬 작은 크기로도 '엘리트' 지능을 구현할 수 있음을 증명하고자 했습니다. 이 연구는 거대 데이터 센터 모델에서나 볼 수 있는 추론의 깊이를 희생하지 않으면서도, 엣지 컴퓨팅이나 특화된 산업용 에이전트와 같이 지연 시간 제약이 있는 환경에 배포할 수 있는 고성능 AI에 대한 증가하는 수요를 해결합니다.
Nemotron-Cascade 2는 DeepSeekV3.2와 어떻게 비교됩니까?
Nemotron-Cascade 2는 훨씬 더 작은 크기를 유지하면서도 IMO 및 IOI와 같은 엘리트 경진 대회에서 DeepSeekV3.2와 대등한 금메달 수준의 추론 성능을 제공합니다. DeepSeekV3.2가 6,710억 개의 매개변수를 가진 거대 모델인 반면, NVIDIA의 아키텍처는 300억 개의 매개변수를 가진 MoE 구조를 활용하며 추론 시에는 30억 개의 매개변수만 활성화합니다. 이는 대등한 논리 구현을 위해 크기를 20배나 줄인 결과입니다.
이 두 모델 간의 비교 분석은 AI 효율성의 새로운 시대를 강조합니다. DeepSeekV3.2-Speciale-671B-A37B가 글로벌 경진 대회에서 이러한 높은 성과를 거둔 최초의 오픈 가중치 모델이었다면, Nemotron-Cascade 2는 두 번째 모델이 되었으며, 훨씬 적은 하드웨어 요구 사항으로 이를 달성했습니다. 이러한 매개변수 수의 감소는 단순히 기술적인 흥미를 넘어 운영 비용 절감과 추론 속도 향상으로 직결됩니다. 개발자들에게 이는 이전에는 기본적인 대화 작업만 처리할 수 있었던 로컬 하드웨어에서 '금메달 수준'의 논리를 실행할 수 있음을 의미합니다.
AI 학습에서 지능 밀도란 무엇입니까?
AI에서 지능 밀도(Intelligence Density)는 추론 시간 단위당 생성되는 지능의 양을 의미하며, 지연 시간 제약이 있는 환경에서의 효율적인 지능 출력을 강조합니다. 이는 토큰당 추론의 질인 '최고 지능'과 '처리량(throughput)' 사이의 균형을 맞추어, Nemotron-Cascade 2와 같은 모델이 프런티어 규모의 대규모 언어 모델과 전통적으로 연관된 계산 오버헤드 없이 엘리트 수준의 논리를 제공할 수 있도록 합니다.
지능 밀도 개념은 차세대 AI 개발의 주요 지표가 되고 있습니다. Bryan Catanzaro와 NVIDIA 팀이 언급했듯이, 목표는 활성화된 모든 매개변수의 효용을 극대화하는 것입니다. 밀도에 집중함으로써 연구자들은 모델의 '지능'이 복잡한 문제 해결과 다단계 논리 등 가장 중요한 부분에 집중되도록 보장할 수 있습니다. 이러한 변화는 업계를 '거거익선'의 철학에서 벗어나, 학습 데이터의 품질과 강화 학습 프로세스의 정교함이 단순한 매개변수 규모보다 더 중요하게 작용하는, 보다 지속 가능하고 접근 가능한 AI 발전 모델로 이동시킵니다.
경쟁 추론: IMO, IOI, ICPC에서의 성공
'엘리트' 추론의 기준은 흔히 세계에서 가장 어려운 학술 경진 대회에 의해 정의됩니다. Nemotron-Cascade 2는 세 가지 주요 분야에서 금메달 수준의 성능을 달성하며 그 역량을 입증했습니다.
- 2025년 국제 수학 올림피아드(IMO): 비선형적 사고를 요구하는 복잡한 기하학 및 대수학 증명을 해결했습니다.
- 국제 정보 올림피아드(IOI): 수준 높은 알고리즘 설계 및 코딩 능력을 보여주었습니다.
- ICPC 월드 파이널: 엄격한 논리적 제약 하에서 대규모 경쟁 프로그래밍 과제를 수행했습니다.
이러한 영역에서의 성공은 모델의 높은 지능 밀도를 방증합니다. 경쟁 수학에서는 단 하나의 논리적 오류만으로도 전체 풀이가 무효화될 수 있으므로, 모델은 높은 '추론 충실도'를 유지해야 합니다. NVIDIA의 연구에 따르면, 사후 학습 단계에서 수학적 및 코딩 추론에 집중함으로써 모델은 소형 모델과 수조 개의 매개변수를 가진 모델 사이의 간극을 메울 수 있었습니다. 이로 인해 Nemotron-Cascade 2는 과학 연구 및 고도의 소프트웨어 엔지니어링 애플리케이션을 위한 주요 후보가 되었습니다.
Nemotron-Cascade 2가 에이전트 작업에 더 적합한 이유는 무엇입니까?
Nemotron-Cascade 2는 다단계 추론 및 자율적 의사결정을 처리하도록 특별히 설계된 확장된 Cascade RL 프레임워크 덕분에 에이전트 작업에서 탁월한 성능을 발휘합니다. 연구진은 복잡하고 도메인에 특화된 워크플로우를 탐색하도록 모델을 학습시킴으로써, 외부 도구 및 동적 환경과의 상호 작용이 필요한 장기 과제 수행 중에도 일관성과 정확성을 유지할 수 있도록 했습니다.
에이전트 기능은 AI가 단순한 챗봇에서 벗어나 무언가를 '수행'할 수 있는 기능적 비서로 진화할 수 있게 해줍니다. Nemotron-Cascade 2의 경우, 이는 모델이 코드를 자율적으로 작성하고 테스트하며 오류를 바탕으로 반복 수정할 수 있음을 의미하며, 이는 IOI 및 ICPC 도메인 학습을 통해 정제된 기술입니다. 모델이 콤팩트하기 때문에 이러한 에이전트 루프는 대형 모델보다 훨씬 빠르게 발생할 수 있어, 문제 식별과 솔루션 실행 사이의 지연 시간을 줄여줍니다. 이러한 효율성은 자율 디버깅이나 실시간 금융 모델링과 같은 실세계 애플리케이션에 매우 중요합니다.
사후 학습 LLM에서 Cascade RL은 어떻게 작동합니까?
Cascade RL은 다중 도메인 온폴리시 증류(multi-domain on-policy distillation)를 사용하여 확장되는 다양한 도메인에 걸쳐 모델의 추론 능력을 반복적으로 정제하는 방식으로 작동합니다. Nemotron-Cascade 2에서 이 프로세스는 고품질 신호를 제공하는 '교사(teacher)' 모델을 통해 모델을 가르치는 과정을 포함하며, 이를 통해 30B 모델은 강화 학습 단계 전반에 걸쳐 성능 저하를 효율적으로 복구하고 추론 이득을 유지할 수 있습니다.
Cascade RL의 기술적 혁신은 모델이 새로운 데이터에 대해 미세 조정될 때 자주 발생하는 '치명적 망각(catastrophic forgetting)'을 관리하는 능력에 있습니다. 온폴리시 증류를 사용하여 NVIDIA 연구진은 모델이 각 특정 도메인에 대해 가장 유능한 중간 교사 모델로부터 학습하도록 보장합니다. 예를 들어, 모델이 코딩을 학습하는 중이라면 현재 코딩 성능이 정점에 달한 교사 모델로부터 증류 신호를 받습니다. 이러한 지식의 '계단식(cascade)' 전달을 통해 Nemotron-Cascade 2는 여러 특화된 시스템의 강점을 하나의 통일되고 콤팩트한 아키텍처로 흡수하여 다재다능하고 고도로 지능적인 최종 체크포인트를 생성할 수 있습니다.
기술적 돌파구: SFT와 증류
Nemotron-Cascade 2의 기초는 세심하게 큐레이션된 지도 미세 조정(Supervised Fine-Tuning, SFT) 단계를 통해 마련되었습니다. 이전 버전과 달리 연구진은 처음부터 더 넓은 범위의 추론 및 에이전트 도메인에 집중했습니다. 이러한 초기 기반은 모델에 추후 Cascade RL 프로세스를 통해 정제될 필수적인 논리 '어휘'를 제공했습니다. 다중 도메인 온폴리시 증류의 사용은 교정력으로 작용하여, 모델이 수학에서 더 능숙해지더라도 프로그래밍이나 자연어 이해에서의 강점을 잃지 않도록 보장했습니다.
또한, 전문가 혼합(MoE) 아키텍처는 이러한 효율성에서 결정적인 역할을 합니다. 주어진 작업에 대해 총 300억 개의 매개변수 중 30억 개만 활성화함으로써, 모델은 마치 특화된 전문가들의 집합체처럼 작동합니다. 수학 문제가 주어지면 수학적 논리에 특화된 '전문가'들만 관여합니다. 이를 통해 Nemotron-Cascade 2는 방대한 지식 베이스를 유지하면서도 개별 '사고'에 대한 계산 비용을 현저히 낮게 유지할 수 있습니다. Mohammad Shoeybi와 연구팀은 이러한 균형이 하드웨어 요구 사항을 확장하지 않고도 지능을 확장할 수 있는 핵심이라고 정의합니다.
함의: 효율적인 AI의 미래
Nemotron-Cascade 2가 오픈 가중치 모델로 출시된 것은 고차원 AI의 민주화에 중대한 함의를 갖습니다. 전통적으로 '금메달' 수준의 지능은 거대 기술 기업의 API 뒤에 갇혀 있거나 실행을 위해 수백만 달러 규모의 서버 클러스터가 필요했습니다. 30B/3B 규모에서 프런티어 수준의 추론을 제공하는 모델을 제공함으로써, NVIDIA는 더 넓은 범위의 연구자들과 스타트업들이 엘리트 수준의 논리를 실험할 수 있도록 지원하고 있습니다. 이는 의료 진단에서 고급 물리학 시뮬레이션에 이르기까지 모든 분야를 위해 설계된 특화된 AI 에이전트의 급증으로 이어질 수 있습니다.
이 연구 라인의 다음 단계는 지능 밀도를 더욱 높이고 Cascade RL의 도메인을 확장하는 것입니다. Nemotron-Cascade 2의 성공은 작은 모델에 얼마나 많은 지능을 담을 수 있는지에 대한 이론적 한계에 아직 도달하지 않았음을 시사합니다. 학습 데이터가 더욱 정교해지고 증류 기술이 더욱 정제됨에 따라, 업계는 곧 전 세계의 모든 스마트폰과 엣지 기기에 엘리트 수준의 추론 능력을 제공하며 인간 지능의 글로벌 무대에서 경쟁할 수 있는 1B 또는 심지어 1B 미만의 매개변수 모델을 보게 될지도 모릅니다.
Comments
No comments yet. Be the first!