앤스로픽, 핵심 안전 약속 폐기

인공지능
Anthropic ditches its core safety promise
앤스로픽(Anthropic)은 미 국방부와의 AI 레드라인을 둘러싼 긴장된 갈등 속에서, 2026년 2월 25일 구속력 있는 개발 중단 약속을 유연한 보고서 중심의 안전 프레임워크로 전환한다고 발표했습니다. 이번 행보는 업계의 책임성, 정부 조달의 영향력, 그리고 안전 우선 AI 서약의 미래에 대한 의문을 제기합니다.

Anthropic, 워싱턴과 업계의 충돌 속에 핵심 안전 약속 폐기

Anthropic, 핵심 안전 약속 폐기: 정책에서 실제로 바뀌는 것들

약 2년 전 발표된 Anthropic의 이전 '책임 있는 확장 정책(Responsible Scaling Policy)'에는 명시적인 가드레일이 포함되어 있었습니다. 모델의 역량이 회사가 테스트하고 제어할 수 있는 수준보다 빠르게 발전할 경우, Anthropic은 추가 훈련을 중단하겠다고 약속했습니다. 블로그 게시물 형태로 발표된 '프런티어 안전 로드맵(Frontier Safety Roadmap)' 중심의 새로운 정책에서 회사는 이러한 강제적인 중단 조항을 삭제했습니다. 대신 Anthropic은 모델의 역량, 위협 모델 및 완화 계획에 대한 상세한 보고서를 정기적으로 발행하고, 공개적으로 선언한 안전 목표를 향한 진척도를 스스로 평가하겠다고 밝혔습니다.

펜타곤과의 '레드라인' 대치 속에서 핵심 안전 약속 폐기한 Anthropic

이러한 정책 변화는 이번 주 격화된 국방부와의 대립 상황과 맞물려 해석되어야 합니다. Pete Hegseth 국방장관은 Anthropic의 CEO인 Dario Amodei를 만나, 조달에 걸림돌이 된다고 판단되는 안전장치들을 철회하라는 시한을 제시한 것으로 알려졌습니다. 펜타곤은 거부할 경우 Anthropic이 2억 달러 규모의 계약을 잃을 수 있으며, 정부가 국방물자생산법(Defense Production Act) 등의 수단을 동원하거나 Anthropic을 공식적으로 공급망 리스크로 지정할 수 있다고 경고했습니다. 이는 해당 기업이 미국 정부에 제품을 판매하는 능력을 엄격히 제한할 수 있는 조치들입니다.

Anthropic은 당국에 두 가지 확고한 원칙은 포기하지 않겠다고 밝혔습니다. 바로 AI 제어 무기를 제작하거나 지원하지 않겠다는 것과, 미국 시민에 대한 국내 대규모 감시를 지원하지 않겠다는 것입니다. 이러한 예외 조항은 회사가 자사 모델의 부적절한 사용을 정의할 때 오랫동안 사용해 온 문구와 일치합니다. 그럼에도 불구하고 국방부 고위 관계자들은 훈련 중단 약속을 철회한 것을 기업의 안전 보장이 약화된 것으로 간주하고 있으며, 이는 군에 인도되는 시스템이 더 엄격한 안전 기준을 충족하도록 강제할 수 있는 펜타곤의 영향력을 감소시키는 것으로 보고 있습니다.

이번 분쟁에서 '레드라인'이 의미하는 바

정책적 관점에서 '레드라인(red line)'은 군이나 정부가 공급업체의 행동에 대해 설정하는 명확하고 집행 가능한 경계입니다. 펜타곤에 있어 AI와 관련된 레드라인은 모델을 무기 체계에 사용할 수 없는 조건이나, 민감한 애플리케이션에 배치하기 전 검증 가능한 테스트 및 제어 요구 사항 등이 될 수 있습니다. 국방부는 안전 테스트가 완료될 때까지 역량 확장을 중단하겠다는 약속과 같은 구속력 있는 기업의 공약을 고신뢰성 시스템을 조달할 때 유용한 수단으로 간주합니다. 이러한 약속을 제거하는 것은 레드라인을 구속력이 약한 지침으로 바꾸어 조달 결정을 복잡하게 만들고 규제 강화 가능성을 높입니다.

그러나 Anthropic과 다른 기업들에게 있어 일방적인 레드라인은 경쟁적 불이익이 될 수 있습니다. 회사 경영진과 일부 연구자들은 경쟁사들이 더 강력한 모델을 배포하는 동안 한 업체만 개발을 중단한다면, 위험이 신중한 개발자에게서 사회 전체로 전가될 수 있다고 주장합니다. 이는 Anthropic의 최고 과학 책임자가 공개적으로 밝힌 핵심 논거이기도 합니다. 즉, 급변하는 시장에서 일방적인 중단은 안전 전략으로서 확장성을 갖기 어렵다는 것이 회사의 판단입니다.

업계 반응과 신뢰도의 상충 관계

이번 발표 직후 AI 커뮤니티에서는 즉각적인 반응이 쏟아졌습니다. 일부 연구자들은 감시 및 무기 사용 문제에 대해 굴복하지 않은 Anthropic의 태도에 박수를 보내며, 조달을 명목으로 안전장치를 낮추라는 정부의 요구가 우려스러운 전례가 될 수 있다고 지적했습니다. 반면 다른 이들은 우려를 표했습니다. 구속력 있는 중단 조항에서 자발적인 보고 체계로 전환하는 것은 이전에 신뢰의 근간이 되었던 실질적인 보장책을 약화시킨다는 것입니다.

신뢰는 기술적인 측면과 평판적인 측면이 결합된 것입니다. Anthropic은 특정 모델이 인위적인 조건 하에서 협박과 유사한 행동을 하도록 유도될 수 있다는 연구 결과를 언급하며 배포에 대한 신중한 입장을 정당화합니다. 또한 회사가 AI 위험에 대한 옹호 활동과 대중 교육에 투자해 왔다는 구체적인 정치적 활동도 강조했습니다. 그러나 투명성 보고만으로는 시스템이 정부용으로 인증되기 전 법적으로 강제 가능한 제한이나 독립적인 감사를 원하는 외부 이해관계자들을 만족시키기에 항상 충분한 것은 아닙니다.

시장 및 정책적 파장

이번 논쟁은 AI의 파괴적 영향에 대해 이미 불안해하고 있는 시장 상황 속에서 전개되고 있습니다. 투자자들과 고객들은 안전을 우선시하는 기업들이 경쟁력을 유지하면서도 엄격한 점검을 병행할 수 있는지 주시하고 있습니다. Anthropic의 선회는 적어도 일부 기업들이 경쟁과 펜타곤과 같은 대형 고객의 계약 체결 능력에 압박을 느끼고 있음을 시사합니다. 만약 그 결과가 지속 가능한 안전 점검 없는 배포 경쟁으로 이어진다면, 규제 당국과 입법가들이 개입해야 한다는 압박을 느낄 수 있습니다.

반대로 펜타곤이 위협한 블랙리스트 작성, 국방물자생산법 발동, 공급망 리스크 지정 등의 강경책은 조달이 어떻게 기업의 정책 선택을 강제하거나 처벌하는 수단으로 사용될 수 있는지를 보여줍니다. 이러한 역학 관계는 더 광범위한 질문을 던집니다. 국가 안보 관련 구매자가 일반 시장보다 더 엄격한 요구 사항을 부과해야 하는지, 만약 그렇다면 혁신을 위축시키지 않으면서 어떻게 그러한 요구 사항을 감사하고 집행할 수 있는지에 대한 질문입니다. 의원들과 규제 당국이 개입할 가능성이 높으며, 상업적 인센티브와 공공 안전 사이의 줄다리기는 빠르게 해결되지 않을 것으로 보입니다.

향후 AI 안전 표준에 미칠 영향

Anthropic의 행보는 더 큰 구조적 문제를 보여줍니다. 자발성과 도덕적 설득에 의존하는 안전 규범은 치열한 상업적, 지정학적 경쟁 속에서 무너질 수 있다는 점입니다. 빈번한 공개 보고와 안전 이정표에 대한 단계별 평가라는 회사의 새로운 접근 방식은 정책 입안자, 연구자 및 감사인에게 더 풍부한 데이터를 제공할 수 있지만, 허용 가능한 위험에 대한 의견 불일치를 어떻게 해결할 것인지는 여전히 과제로 남습니다. 펜타곤은 사용하는 시스템에 대해 명확한 보장을 원하며, Anthropic과 다른 기업들은 일방적인 중단을 피하는 유연하고 반복적인 프로세스를 선호합니다.

실질적인 후속 조치가 중요할 것입니다. 만약 펜타곤이 조달 제재를 실행에 옮긴다면, 구매자가 공급업체의 내부 정책 변경을 어느 정도까지 압박할 수 있는지에 대한 전례가 만들어질 것입니다. 만약 Anthropic이 AI 무기와 대규모 감시에 대한 거부 원칙을 고수하면서 역량 보고서를 계속 발행한다면, 그 결과는 정부 사업을 위한 더 엄격한 독립 테스트 및 계약상의 안전 조항과 상업적 제품에 대한 업계의 투명성 약속이 결합된 협상된 타협안이 될 수 있습니다. 그렇지 않을 경우, 이러한 교착 상태는 집행 가능한 표준을 만들기 위한 입법 조치의 가능성을 높일 것입니다.

이 사례는 모델 훈련 중단 여부나 구속력 있는 약속을 보고서 중심의 로드맵으로 대체하는 것과 같은 기술적 결정이 지정학, 조달 권력, 시장 인센티브와 어떻게 떼어놓을 수 없는지를 보여주는 명확한 예시입니다. Anthropic의 정책 개정은 단순한 내부 관리 차원의 변화가 아닙니다. 이는 역량 출시 경쟁을 벌이는 경쟁사들과 사용 및 인증 가능한 시스템을 요구하는 정부 사이에서 '안전 우선'이라는 구호가 어떻게 살아남을 것인가에 대한 신호입니다. 이 신호가 고객, 규제 당국 및 연구자들에게 어떻게 받아들여지느냐에 따라 AI 거버넌스의 다음 단계가 결정될 것입니다.

출처

  • Anthropic (책임 있는 확장 정책 v3 및 프런티어 안전 로드맵)
  • 미국 국방부 / 펜타곤 공개 성명 및 조달 조치
  • Anthropic의 정책 변화 및 펜타곤과의 분쟁에 관한 CNN 보도
Mattias Risberg

Mattias Risberg

Cologne-based science & technology reporter tracking semiconductors, space policy and data-driven investigations.

University of Cologne (Universität zu Köln) • Cologne, Germany

Readers

Readers Questions Answered

Q 앤스로픽(Anthropic)의 핵심 안전 약속은 무엇이며 왜 중요한가요?
A 앤스로픽의 핵심 안전 약속은 '책임 있는 확장 정책(Responsible Scaling Policy)'의 일부로, 사전에 적절한 안전 완화 조치를 보장할 수 없는 한 최첨단 AI 모델을 학습시키거나 출시하지 않겠다는 것이었습니다. 이 약속은 신속한 개발보다 안전을 우선시함으로써 회사를 경쟁사들과 차별화했습니다. 그 중요성은 업계의 압박 속에서도 AI 안전에 대한 더 높은 기준을 설정했다는 데 있지만, 비판론자들은 자발적인 약속은 쉽게 바뀔 수 있다는 점을 지적합니다.
Q 앤스로픽이 펜타곤과의 분쟁에서 안전 약속을 철회한 것으로 보도된 이유는 무엇인가요?
A 검색 결과에는 펜타곤과의 분쟁에 대한 언급이 없습니다. 대신, 앤스로픽은 OpenAI와 같은 라이벌과의 치열한 경쟁, 가열되는 AI 경주에서 경쟁력을 유지할 필요성, 그리고 정부 규제나 유사한 엄격한 표준을 채택하는 동종 업체들의 부재로 인해 안전 약속을 철회했습니다. 회사는 안전과 개발 속도의 균형을 맞추기 위해 안전 로드맵 및 위험 보고서와 같은 투명성 조치로 전환했습니다.
Q AI 개발 및 정책 논쟁에서 '레드라인(red line)'은 무엇을 의미하나요?
A AI 개발 및 정책 논쟁에서 '레드라인'은 AI 시스템의 개발이나 배포가 너무 위험하다고 간주되어 중단이나 엄격한 보호 조치를 촉발하는 임계값 또는 경계를 의미합니다. 이는 다른 분야의 생물학적 안전 등급과 유사하게, 치명적인 위험을 방지하기 위한 협상 불가능한 한계를 나타냅니다.
Q 앤스로픽의 결정이 정부의 AI 계약 및 안전 표준에 어떤 영향을 미칠 수 있나요?
A 앤스로픽의 결정은 취약한 자발적 안전 표준을 정상화하여, 엄격한 보호 조치보다 신속한 배포를 우선시하는 정부 AI 계약의 기대치를 잠재적으로 낮출 수 있습니다. 이는 다른 기업들이 이를 따르도록 유도하여, 구속력 있는 규제 요구 속에서 계약이 엄격한 전제 조건보다는 경쟁력과 투명성 보고서를 강조하는 방향으로 영향을 미칠 수 있습니다.
Q 이번 CNN 보도가 업계의 AI 안전에 시사하는 바는 무엇인가요?
A 보도에 반영된 CNN의 리포트는 자발적인 AI 안전 약속의 취약성을 강조하며, 주의보다는 경쟁으로 향하는 업계의 전반적인 변화를 시사하고 정부 규제의 필요성을 역설합니다. 이는 AI 개발자의 자율 규제에 대한 대중의 신뢰를 떨어뜨리고, 치명적인 위험을 완화하기 위한 강제적 감독 시행에 대한 논쟁을 심화시킬 수 있습니다.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!