DeepSeek의 무료 모델, AI 경쟁 구도에 파란을 일으키다

인공지능
DeepSeek’s Free Models Shake Up AI Race
중국 스타트업 DeepSeek가 GPT-5 수준의 추론 능력과 긴 문맥 처리 능력을 갖추면서도 컴퓨팅 비용은 획기적으로 절감한 두 가지 새로운 오픈 모델을 공개했습니다. 이는 기존의 지배적인 비즈니스 모델에 의문을 제기하며 새로운 규제 담론을 형성하고 있습니다.

주요 소식

이번 주, 2025년 초 선풍적인 인기를 끌었던 항저우 기반의 AI 스타트업 DeepSeek가 두 가지 새로운 모델인 DeepSeek-V3.2와 고도의 추론 변형 모델인 DeepSeek-V3.2-Speciale을 출시하고, 허용 범위가 넓은 오픈 소스 라이선스 하에 가중치와 코드를 광범위하게 공개했습니다. 이 회사는 이 두 모델을 긴 문서 처리와 다단계 문제 해결에 최적화된 모델로 포지셔닝하고 있으며, 공개 벤치마크 및 경진 대회 시뮬레이션에서 최신 폐쇄형 프런티어 시스템에 필적하는 성능을 발휘한다고 주장합니다.

이는 단순한 업데이트가 아닙니다. DeepSeek는 이를 긴 컨텍스트 효율성과 에이전트 도구 사용 측면에서의 획기적인 변화라고 설명하며, 개발자와 연구자들이 실험해 볼 수 있도록 모델 카드, 기술 보고서 및 다운로드 가능한 가중치를 공개했습니다.

모델 작동 원리 및 운영 비용이 저렴한 이유

DeepSeek가 강조하는 핵심 혁신은 DeepSeek Sparse Attention(DSA)이라고 불리는 희소 어텐션(sparse attention) 형태입니다. 어텐션 메커니즘은 대규모 언어 모델에서 주어진 답변에 어떤 단어와 구절이 중요한지 가중치를 두는 부분입니다. 전통적인 어텐션은 입력 길이에 따른 확장성이 떨어지며, 연산 비용이 토큰 수의 제곱에 비례하여 증가하기 때문에 수만 개의 토큰을 입력하는 것은 비용 부담이 매우 큽니다.

벤치마크, 경진 대회 및 실전 과제

DeepSeek는 표준 벤치마크와 보다 극적인 경진 대회 방식의 평가 결과를 혼합하여 발표했습니다. Speciale 변형 모델은 강화 학습과 특화된 훈련 체계를 통해 튜닝된 심층 추론 엔진으로 소개되었습니다. 회사가 발표한 수치에 따르면, 이 모델은 여러 정예 프로그래밍 및 수학 경진 대회에서 금메달 수준의 성적을 거두었으며, 프런티어 모델 비교에 주로 사용되는 코딩 및 추론 벤치마크에서도 경쟁력 있는 결과를 기록했습니다.

이러한 경진 대회 결과는 문서상으로 매우 인상적입니다. DeepSeek의 자료에 따르면 실제 시험과 유사한 제약 조건 하에서 치러진 수학 및 정보 올림피아드 문제에서 높은 점수를 기록했으며, 코딩 워크플로우 벤치마크에서도 강력한 성능을 보여주었습니다. 독립적인 검토를 통해 이 수치들이 입증된다면, 이는 단순히 컴퓨팅 자원을 무한정 확장하지 않고도 소규모의 아키텍처 변경과 타겟팅된 훈련만으로 추론 능력을 향상시킬 수 있음을 시사합니다.

에이전트 기반의 '도구를 활용한 사고'

DeepSeek가 강조하는 두 번째 실질적인 발전은 모델이 검색, 코드 실행, 파일 편집 등 외부 도구와 상호작용할 때 내부 추론 과정을 유지한다는 점입니다. 이전 모델들은 외부 API를 호출할 때마다 내부 사고 체계(Chain of Thought)를 잃어버리는 경향이 있었습니다. DeepSeek는 이를 합성 데이터 기반의 다단계 과제 훈련 파이프라인과 결합하여, 모델이 도구에 쿼리를 보내는 동안에도 부분적인 계획을 유지하고 이어나가는 법을 배우게 했습니다. 덕분에 복잡한 코드 디버깅, 제약 조건이 변하는 물류 계획 수립, 수많은 문서를 넘나드는 조사 활동과 같은 다단계 워크플로우가 실제로 훨씬 더 매끄러워졌습니다.

DeepSeek가 설명하는 훈련 체계에는 모델이 숙고와 행동을 병행하는 방법을 가르치기 위한 수천 개의 합성 환경과 과제 변형이 포함되어 있습니다. 자율 에이전트나 어시스턴트 워크플로우를 구축하는 개발자들에게 이러한 기능은 단순한 벤치마크 점수만큼이나 중요합니다. 이는 도구와 모델을 결합할 때 발생하는 엔지니어링 측면의 마찰을 줄여주기 때문입니다.

대형 모델을 유료 API 뒤에 숨겨두는 대부분의 기업과 달리, DeepSeek는 MIT 방식의 라이선스로 모델 가중치와 코드를 공개하고 대중적인 런타임을 위한 통합 예시를 발표했습니다. 이러한 행보는 배포 장벽을 낮춥니다. 기업은 모델을 사내에 직접 구축(on-prem)하여 운영할 수 있고, 연구자들은 로짓(logits)과 오류 모드를 조사할 수 있으며, 스타트업은 특정 벤더에 종속될 걱정 없이 에이전트를 구축할 수 있습니다.

공개된 가중치와 효율성 개선의 결합은 상업적으로 중요한 의미를 갖습니다. 추론 비용 절감과 자체 호스팅 옵션은 긴 컨텍스트 추론을 대량으로 사용해야 하는 고객(법률 조사, 소프트웨어 분석, 과학 문헌 검토 등)의 단위 경제성과 리스크 계산 방식을 모두 바꿔 놓습니다. 동시에, 프런티어 모델의 오픈 소스화는 폐쇄형 벤더들이 쉽게 통제할 수 없는 방식으로 실험의 속도를 높입니다.

규제 긴장과 지정학적 마찰

이러한 모든 기술적, 상업적 변화는 정책과 맞물려 있습니다. 이미 여러 규제 기관과 정부가 DeepSeek의 데이터 처리 방식과 국가 안보 프로필에 대해 경고를 보냈습니다. 유럽 당국은 이를 조사하여 일부 사례에서 일시적 차단이나 앱 삭제를 명령했으며, 여러 정부는 주의를 권고하거나 공식 기기에서의 사용을 제한했습니다. 이러한 조치들은 규제 대상 분야에서의 도입을 복잡하게 만들며, 가중치가 공개되어 있다고 해서 데이터 흐름이나 외국 정부의 접근에 대한 우려가 사라지는 것은 아님을 시사합니다.

이 모델들의 도입을 검토하는 기업들은 데이터 거주성, 현지 개인정보 보호 규칙 준수, 훈련 및 추론 하드웨어의 공급망 출처 등을 고려해야 합니다. 이러한 문제들은 이제 기술적인 부차적 요소가 아니라 조달 및 리스크 평가의 핵심 요소가 되었습니다.

AI 지형에 미치는 영향

세 가지 주요 시사점이 있습니다. 첫째, 단순한 물량 공세가 아닌 아키텍처 효율성만으로도 특히 긴 컨텍스트와 에이전트 과제에서 기술적 한계를 확장할 수 있다는 점입니다. 둘째, 고성능 모델의 공개 출시는 기존 업체들이 가격 및 제품 전략을 재고하게 만듭니다. 이제 정부, 기업, 개발자들에게는 자체 호스팅이 용이한 대안이 생겼기 때문입니다. 셋째, 정책과 신뢰는 여전히 제약 요인으로 남아 있습니다. 기술적 진보만으로는 누가 승리할지, 또는 이러한 시스템이 얼마나 널리 배포될지 결정되지 않을 것입니다.

특히 유럽과 미국의 조직들에게 당면한 과제는 실무적인 것입니다. 즉, 자유롭게 사용 가능하고 효율적인 모델의 운영 및 비용적 이점과 데이터 거버넌스, 제3자 감사, 규제 리스크에 관한 미결 과제 사이에서 균형을 잡는 일입니다. 앞으로 몇 달간은 시장, 규제 기관, 서비스 제공업체들이 어떻게 적응해 나가는지를 보여주는 실전 실험의 장이 될 것입니다.

향후 주목할 점

  • DeepSeek의 벤치마크 주장에 대한 독립적인 감사 및 재현 결과.
  • 누가 어떤 보호 조치 하에 이러한 가중치를 자체 호스팅하기로 선택하는지를 보여주는 기업용 계약 조건.
  • 해외에서 호스팅되는 모델 서비스와 공개 가중치에 데이터 보호 규칙이 어떻게 적용되는지 명확히 하는 규제 당국의 판결.
  • 주요 클라우드 및 반도체 벤더들의 기술적(런타임 지원, 최적화된 커널) 및 상업적(가격 정책, 파트너십) 대응 방식.

DeepSeek의 이번 출시는 AI 경쟁이 이제 단순히 컴퓨팅 자원뿐만 아니라 아키텍처, 데이터, 도구, 유통, 규제 등 다양한 동인에 의해 결정된다는 사실을 일깨워 줍니다. 엔지니어, 제품 리더, 정책 입안자들에게 이러한 복잡성은 하나의 기회이자, 이러한 역량들이 근간이 되는 인프라로 자리 잡기 전에 해결해야 할 수많은 어려운 질문들을 던져줍니다.

— Mattias Risberg, Dark Matter

Mattias Risberg

Mattias Risberg

Cologne-based science & technology reporter tracking semiconductors, space policy and data-driven investigations.

University of Cologne (Universität zu Köln) • Cologne, Germany

Readers

Readers Questions Answered

Q DeepSeek가 어떤 모델을 출시했으며, 이들은 무엇을 위해 설계되었나요?
A DeepSeek는 두 가지 오픈 모델인 DeepSeek-V3.2와 고도의 추론 능력을 갖춘 변형 모델인 DeepSeek-V3.2-Speciale을 출시했습니다. 가중치와 코드는 MIT 스타일 라이선스에 따라 널리 공개되었으며, 긴 문서 처리와 다단계 문제 해결을 위해 설계되었습니다. 공개 벤치마크 및 경진 대회 시뮬레이션에서 DeepSeek는 최신 폐쇄형 프런티어 시스템에 필적하는 성능을 주장하고 있습니다.
Q DeepSeek Sparse Attention(DSA)이란 무엇이며 왜 중요한가요?
A 주요 혁신 사항은 DeepSeek Sparse Attention(DSA)으로, 이는 기존 어텐션의 토큰 제곱 비례 연산 비용을 줄여 긴 컨텍스트 효율성을 개선하는 희소 어텐션(sparse attention) 방식입니다. 회사 측은 이를 통해 수천 개의 토큰을 처리할 수 있으며, 에이전트 도구 사용을 지원하여 외부 도구 호출 시에도 내부 추론 과정을 유지할 수 있다고 설명합니다.
Q 오픈 라이선스가 배포 및 실험에 어떤 영향을 미치나요?
A DeepSeek는 MIT 스타일 라이선스로 모델 가중치와 코드를 공개하고 통합 예제를 제공함으로써 배포 장벽을 낮추었습니다. 기업은 온프레미스에서 직접 호스팅할 수 있고, 연구자는 로짓(logits)과 실패 모드를 검사할 수 있으며, 스타트업은 특정 벤더에 종속되지 않고 에이전트를 구축할 수 있어 추론 비용을 절감하고 긴 컨텍스트 워크플로우를 위한 도구를 확장할 수 있는 가능성이 열렸습니다.
Q 이러한 모델과 관련된 규제 및 지정학적 우려 사항은 무엇인가요?
A 규제 당국은 DeepSeek의 데이터 처리 방식과 국가 안보 프로필을 문제 삼았으며, 유럽 당국은 조사 후 때때로 앱을 차단하거나 삭제하기도 했습니다. 각국 정부는 주의를 권고하고 있으며, 배포 결정 시 데이터 거주지, 지역 개인정보 보호 준수, 학습 및 추론 하드웨어에 대한 공급망 출처 등을 고려해야 하므로 규제 대상 부문의 조달 및 위험 평가에 영향을 미칩니다.
Q AI 업계 전반에 미치는 영향은 무엇인가요?
A 세 가지 주요 시사점은 다음과 같습니다. 첫째, 아키텍처 효율성이 긴 컨텍스트 작업에 대한 프런티어 역량을 발전시킬 수 있습니다. 둘째, 오픈 소스 출시는 기존 업체들로 하여금 가격 정책과 자체 호스팅 옵션을 재고하게 만듭니다. 셋째, 정책과 신뢰는 여전히 주요 제약 요인이며, 데이터 거버넌스, 제3자 감사 및 규제 위험에 대한 실질적인 고려 사항들이 유럽과 미국의 도입 양상을 결정짓게 될 것입니다.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!