주요 소식
이번 주, 2025년 초 선풍적인 인기를 끌었던 항저우 기반의 AI 스타트업 DeepSeek가 두 가지 새로운 모델인 DeepSeek-V3.2와 고도의 추론 변형 모델인 DeepSeek-V3.2-Speciale을 출시하고, 허용 범위가 넓은 오픈 소스 라이선스 하에 가중치와 코드를 광범위하게 공개했습니다. 이 회사는 이 두 모델을 긴 문서 처리와 다단계 문제 해결에 최적화된 모델로 포지셔닝하고 있으며, 공개 벤치마크 및 경진 대회 시뮬레이션에서 최신 폐쇄형 프런티어 시스템에 필적하는 성능을 발휘한다고 주장합니다.
이는 단순한 업데이트가 아닙니다. DeepSeek는 이를 긴 컨텍스트 효율성과 에이전트 도구 사용 측면에서의 획기적인 변화라고 설명하며, 개발자와 연구자들이 실험해 볼 수 있도록 모델 카드, 기술 보고서 및 다운로드 가능한 가중치를 공개했습니다.
모델 작동 원리 및 운영 비용이 저렴한 이유
DeepSeek가 강조하는 핵심 혁신은 DeepSeek Sparse Attention(DSA)이라고 불리는 희소 어텐션(sparse attention) 형태입니다. 어텐션 메커니즘은 대규모 언어 모델에서 주어진 답변에 어떤 단어와 구절이 중요한지 가중치를 두는 부분입니다. 전통적인 어텐션은 입력 길이에 따른 확장성이 떨어지며, 연산 비용이 토큰 수의 제곱에 비례하여 증가하기 때문에 수만 개의 토큰을 입력하는 것은 비용 부담이 매우 큽니다.
벤치마크, 경진 대회 및 실전 과제
DeepSeek는 표준 벤치마크와 보다 극적인 경진 대회 방식의 평가 결과를 혼합하여 발표했습니다. Speciale 변형 모델은 강화 학습과 특화된 훈련 체계를 통해 튜닝된 심층 추론 엔진으로 소개되었습니다. 회사가 발표한 수치에 따르면, 이 모델은 여러 정예 프로그래밍 및 수학 경진 대회에서 금메달 수준의 성적을 거두었으며, 프런티어 모델 비교에 주로 사용되는 코딩 및 추론 벤치마크에서도 경쟁력 있는 결과를 기록했습니다.
이러한 경진 대회 결과는 문서상으로 매우 인상적입니다. DeepSeek의 자료에 따르면 실제 시험과 유사한 제약 조건 하에서 치러진 수학 및 정보 올림피아드 문제에서 높은 점수를 기록했으며, 코딩 워크플로우 벤치마크에서도 강력한 성능을 보여주었습니다. 독립적인 검토를 통해 이 수치들이 입증된다면, 이는 단순히 컴퓨팅 자원을 무한정 확장하지 않고도 소규모의 아키텍처 변경과 타겟팅된 훈련만으로 추론 능력을 향상시킬 수 있음을 시사합니다.
에이전트 기반의 '도구를 활용한 사고'
DeepSeek가 강조하는 두 번째 실질적인 발전은 모델이 검색, 코드 실행, 파일 편집 등 외부 도구와 상호작용할 때 내부 추론 과정을 유지한다는 점입니다. 이전 모델들은 외부 API를 호출할 때마다 내부 사고 체계(Chain of Thought)를 잃어버리는 경향이 있었습니다. DeepSeek는 이를 합성 데이터 기반의 다단계 과제 훈련 파이프라인과 결합하여, 모델이 도구에 쿼리를 보내는 동안에도 부분적인 계획을 유지하고 이어나가는 법을 배우게 했습니다. 덕분에 복잡한 코드 디버깅, 제약 조건이 변하는 물류 계획 수립, 수많은 문서를 넘나드는 조사 활동과 같은 다단계 워크플로우가 실제로 훨씬 더 매끄러워졌습니다.
DeepSeek가 설명하는 훈련 체계에는 모델이 숙고와 행동을 병행하는 방법을 가르치기 위한 수천 개의 합성 환경과 과제 변형이 포함되어 있습니다. 자율 에이전트나 어시스턴트 워크플로우를 구축하는 개발자들에게 이러한 기능은 단순한 벤치마크 점수만큼이나 중요합니다. 이는 도구와 모델을 결합할 때 발생하는 엔지니어링 측면의 마찰을 줄여주기 때문입니다.
대형 모델을 유료 API 뒤에 숨겨두는 대부분의 기업과 달리, DeepSeek는 MIT 방식의 라이선스로 모델 가중치와 코드를 공개하고 대중적인 런타임을 위한 통합 예시를 발표했습니다. 이러한 행보는 배포 장벽을 낮춥니다. 기업은 모델을 사내에 직접 구축(on-prem)하여 운영할 수 있고, 연구자들은 로짓(logits)과 오류 모드를 조사할 수 있으며, 스타트업은 특정 벤더에 종속될 걱정 없이 에이전트를 구축할 수 있습니다.
공개된 가중치와 효율성 개선의 결합은 상업적으로 중요한 의미를 갖습니다. 추론 비용 절감과 자체 호스팅 옵션은 긴 컨텍스트 추론을 대량으로 사용해야 하는 고객(법률 조사, 소프트웨어 분석, 과학 문헌 검토 등)의 단위 경제성과 리스크 계산 방식을 모두 바꿔 놓습니다. 동시에, 프런티어 모델의 오픈 소스화는 폐쇄형 벤더들이 쉽게 통제할 수 없는 방식으로 실험의 속도를 높입니다.
규제 긴장과 지정학적 마찰
이러한 모든 기술적, 상업적 변화는 정책과 맞물려 있습니다. 이미 여러 규제 기관과 정부가 DeepSeek의 데이터 처리 방식과 국가 안보 프로필에 대해 경고를 보냈습니다. 유럽 당국은 이를 조사하여 일부 사례에서 일시적 차단이나 앱 삭제를 명령했으며, 여러 정부는 주의를 권고하거나 공식 기기에서의 사용을 제한했습니다. 이러한 조치들은 규제 대상 분야에서의 도입을 복잡하게 만들며, 가중치가 공개되어 있다고 해서 데이터 흐름이나 외국 정부의 접근에 대한 우려가 사라지는 것은 아님을 시사합니다.
이 모델들의 도입을 검토하는 기업들은 데이터 거주성, 현지 개인정보 보호 규칙 준수, 훈련 및 추론 하드웨어의 공급망 출처 등을 고려해야 합니다. 이러한 문제들은 이제 기술적인 부차적 요소가 아니라 조달 및 리스크 평가의 핵심 요소가 되었습니다.
AI 지형에 미치는 영향
세 가지 주요 시사점이 있습니다. 첫째, 단순한 물량 공세가 아닌 아키텍처 효율성만으로도 특히 긴 컨텍스트와 에이전트 과제에서 기술적 한계를 확장할 수 있다는 점입니다. 둘째, 고성능 모델의 공개 출시는 기존 업체들이 가격 및 제품 전략을 재고하게 만듭니다. 이제 정부, 기업, 개발자들에게는 자체 호스팅이 용이한 대안이 생겼기 때문입니다. 셋째, 정책과 신뢰는 여전히 제약 요인으로 남아 있습니다. 기술적 진보만으로는 누가 승리할지, 또는 이러한 시스템이 얼마나 널리 배포될지 결정되지 않을 것입니다.
특히 유럽과 미국의 조직들에게 당면한 과제는 실무적인 것입니다. 즉, 자유롭게 사용 가능하고 효율적인 모델의 운영 및 비용적 이점과 데이터 거버넌스, 제3자 감사, 규제 리스크에 관한 미결 과제 사이에서 균형을 잡는 일입니다. 앞으로 몇 달간은 시장, 규제 기관, 서비스 제공업체들이 어떻게 적응해 나가는지를 보여주는 실전 실험의 장이 될 것입니다.
향후 주목할 점
- DeepSeek의 벤치마크 주장에 대한 독립적인 감사 및 재현 결과.
- 누가 어떤 보호 조치 하에 이러한 가중치를 자체 호스팅하기로 선택하는지를 보여주는 기업용 계약 조건.
- 해외에서 호스팅되는 모델 서비스와 공개 가중치에 데이터 보호 규칙이 어떻게 적용되는지 명확히 하는 규제 당국의 판결.
- 주요 클라우드 및 반도체 벤더들의 기술적(런타임 지원, 최적화된 커널) 및 상업적(가격 정책, 파트너십) 대응 방식.
DeepSeek의 이번 출시는 AI 경쟁이 이제 단순히 컴퓨팅 자원뿐만 아니라 아키텍처, 데이터, 도구, 유통, 규제 등 다양한 동인에 의해 결정된다는 사실을 일깨워 줍니다. 엔지니어, 제품 리더, 정책 입안자들에게 이러한 복잡성은 하나의 기회이자, 이러한 역량들이 근간이 되는 인프라로 자리 잡기 전에 해결해야 할 수많은 어려운 질문들을 던져줍니다.
— Mattias Risberg, Dark Matter
Comments
No comments yet. Be the first!