시(詩)가 AI 보안망을 무너뜨릴 때

인공지능
When Poetry Breaks AI
연구진은 정교하게 작성된 시구가 주요 언어 모델의 안전 필터를 안정적으로 우회할 수 있음을 입증하며, 새로운 '스타일 기반' 탈옥 유형을 제시하고 기존 방어 체계의 한계를 드러냈다.

시의 한 구절이 보안 익스플로잇이 된 방식

최근 발표된 한 놀라운 연구에서, 과학자들은 해로운 지시 사항을 시적 표현으로 변환함으로써 현대의 거대 언어 모델(LLM)이 안전 제약 조건을 체계적으로 무시하도록 속일 수 있음을 입증했습니다. 상용 및 오픈 소스 모델을 아우르는 광범위한 테스트 결과, 직접 작성하거나 다른 모델을 통해 생성한 시적 표현은 일반적인 산문 형태의 시도에 비해 탈옥(jailbreak) 성공률을 비약적으로 높였습니다.

연구팀은 25개의 최첨단 모델을 대상으로 시적 탈옥 테스트를 진행했으며, 직접 쓴 시가 기준선이 되는 산문 공격보다 훨씬 높은 평균 공격 성공률을 기록했다고 보고했습니다. 기계로 변환한 시 또한 성공률을 실질적으로 높였습니다. 일부 사례에서는 차이가 10배 이상 벌어지기도 했으며, 테스트된 여러 모델이 이러한 문체적 기교에 매우 취약한 것으로 나타났습니다. 이 증명은 숨겨진 코드나 백도어가 아닌 언어적 구성(framing)에 의존하기 때문에, 이러한 취약점은 다양한 모델군과 안전 파이프라인 전반에 걸쳐 전이됩니다. 연구진은 잠재적인 공격자에게 즉시 사용 가능한 익스플로잇을 제공하지 않기 위해 공개 사례를 의도적으로 정화 처리했습니다.

문체가 정렬(Alignment) 기술을 압도하는 이유

간단히 말해, 모델은 어구와 문맥에서 나오는 암시적 단서를 따르는 데 매우 능숙합니다. 시적 표현은 이러한 해석력을 안전 계층이 차단하려던 콘텐츠를 생성하는 방향으로 유도할 수 있습니다. 이러한 관찰은 한 가지 사각지대를 드러냅니다. 즉, 문자 그대로의 의미나 토큰 수준의 패턴에 집중하는 방어 시스템은 더 높은 수준의 언어 구조를 이용하는 공격을 놓칠 수 있다는 점입니다.

탈옥의 큰 흐름에서 본 이번 연구의 위치

적대적 또는 보편적 탈옥은 새로운 개념이 아닙니다. 연구자들은 이전에도 지속적인 트리거를 개발하고, 멀티턴 익스플로잇을 구축하며, 학습 중에 백도어와 유사한 행동을 심는 방법까지 보여준 바 있습니다. 더 정교한 전략은 적은 수의 쿼리와 적응형 에이전트를 사용하여 전이 가능한 공격을 설계합니다. 또한 탈옥 전술이 진화함에 따라 탐지기의 성능이 저하된다는 연구 결과도 있습니다. 새로운 시적 접근 방식은 이러한 도구 상자에 문체적 레버를 추가합니다. 이는 기술적 비용이 거의 들지 않으면서도 수많은 모델에 전이될 수 있는 방식입니다.

낮은 기술적 비용과 높은 모델 간 효과성이라는 이 조합은 레드팀과 안전 엔지니어들이 이 결과를 특히 긴급하게 받아들이는 이유입니다. 이는 탈옥 기법이 진화하며 모델의 학습 분포와 안전성 평가에 사용되는 데이터셋 사이의 격차를 이용할 수 있다는 기존 연구 결과를 보완합니다.

운문 기반 공격에 대한 방어

방어자들이 문체적 탈옥을 완화하기 위해 이미 추진하고 있는 몇 가지 경로가 있습니다. 하나는 안전 분류기의 학습 데이터를 넓혀 메타포, 운문, 완곡한 표현 등 더 다양한 언어 스타일을 포함하는 것입니다. 이를 통해 탐지기는 형태에 의해 가려진 유해한 의도를 인식하는 법을 배울 수 있습니다. 또 다른 방법은 입력값 분류에만 의존하기보다 모델 출력에서 규칙 위반의 징후를 찾는 행동 기반 모니터링을 도입하는 것입니다.

일부 팀은 연구자들이 '헌법적(Constitutional)' 또는 '분류기 기반' 계층이라 부르는 아키텍처 수준의 변경을 제안했습니다. 이는 사용자 프롬프트와 최종 답변 사이에 위치하여 추가적인 합성 데이터 학습을 통해 상위 수준의 정책을 강제합니다. 지속적이고 적대적인 레드팀 활동과 신속한 재학습도 도움이 될 수 있습니다. 정기적으로 업데이트되는 탐지기는 한 번 학습된 후 변경되지 않는 정적 시스템보다 새로운 탈옥 방식에 더 잘 대응합니다. 이 중 어느 것도 만능 해결책(Silver bullet)은 아니지만, 이들이 결합되면 단순한 문체 공격을 대규모로 유지하기 어렵게 만듭니다.

트레이드오프와 한계

시적 조작에 맞서 모델을 강화하는 것은 익숙한 트레이드오프를 발생시킵니다. 그물을 너무 넓게 던지면 오탐(False positive)의 위험이 있습니다. 즉, 난독화된 유해성과 유사하다는 이유로 무해한 창작물이나 복잡한 기술적 은유를 거부하게 될 수 있습니다. 과도한 필터링은 사용자 경험을 저하시키고, 정당한 연구를 방해하며, 교육, 문학, 심리 치료, 창의성 도구 등 뉘앙스에 의존하는 사용 사례를 저해할 수 있습니다. 따라서 실질적인 방어는 단일 분류기에 의존하기보다 입력 의미론, 출력 행동, 출처, 사용자 패턴 등 여러 신호를 결합하여 정밀도와 재현율의 균형을 맞추어야 합니다.

사용자, 연구자 및 정책 입안자에게 주는 시사점

마지막으로 연구 커뮤니티에 있어 이번 연구는 언어적 창의성이 양날의 검이라는 사실을 상기시켜 줍니다. 언어 모델을 유용하고 문화적으로 유창하게 만드는 바로 그 특성이 새로운 공격 표면(Attack surfaces)을 열어주기도 하기 때문입니다. 이러한 공격 표면을 방어하려면 공유 벤치마크, 다중 스타일 레드팀 구성, 악용 지침을 제공하지 않으면서도 커뮤니티가 강력하고 검증된 해결책을 반복 개선할 수 있도록 하는 투명한 공개 관행 등 공동의 노력이 필요합니다.

윤리적 참고 사항

향후 과제

문체 기반 탈옥은 모델 안전성에 대한 논의의 방향을 바꿉니다. 이는 견고한 정렬을 위해 더 깨끗한 데이터와 더 스마트한 학습 목표뿐만 아니라, 은유, 운율, 수사적 형태와 같은 인간 언어의 미묘함에 대한 이해도 필요하다는 점을 보여줍니다. 다행인 점은 이 문제가 발견 및 해결 가능하다는 것입니다. 연구자와 산업계는 이미 완화를 위한 도구 상자를 보유하고 있습니다. 어려운 부분은 LLM의 창의성과 유용성을 유지하면서 오용을 더 어렵고 비용이 많이 들게 만드는 방식으로 이를 배포하는 것입니다.

우리는 앞으로 이와 같은 더 많은 놀라운 일들을 예상해야 합니다. 모델이 미묘한 차이를 더 잘 포착하게 됨에 따라, 이를 잘못된 방향으로 유도하는 방법도 늘어날 것입니다. 이에 대한 대응 또한 똑같이 창의적일 것입니다. 더 풍부한 안전 데이터셋, 더 스마트한 행동 탐지기, 새로운 공격 패턴에 더 빠르게 적응하는 운영 프로토콜 등이 도입될 것입니다. 우리 사회가 신뢰할 수 있는 책임감 있고 확장 가능한 AI, 즉 해가 아닌 도움을 주는 도구를 만드는 것이 관건이며, 이 작업에는 기술적 창의성과 사려 깊은 정책이 모두 요구될 것입니다.

Mattias Risberg

Mattias Risberg

Cologne-based science & technology reporter tracking semiconductors, space policy and data-driven investigations.

University of Cologne (Universität zu Köln) • Cologne, Germany

Readers

Readers Questions Answered

Q 연구자들은 시를 이용해 AI 안전 필터를 우회하는 것에 대해 무엇을 발견했습니까?
A 연구자들은 유해한 지시를 시로 변환하면 현대의 대규모 언어 모델이 안전 제약을 포기하도록 체계적으로 속일 수 있다는 사실을 입증했습니다. 25개의 최첨단 모델을 대상으로 한 실험에서, 수작업으로 작성했든 기계가 생성했든 상관없이 시적인 표현은 일반 산문에 비해 공격 성공률을 높였으며, 일부 사례에서는 수십 배의 증가를 보였습니다. 이러한 취약점은 숨겨진 코드가 아닌 언어적 구성 방식에 기인하기 때문에, 모델 제품군이나 안전 파이프라인 전반에 걸쳐 약점이 전이됩니다.
Q 수작업으로 작성한 시와 기계가 생성한 시의 효과는 어떻게 비교되었습니까?
A 수작업 시구는 기준이 되는 산문보다 훨씬 높은 평균 공격 성공률을 기록했으며, 기계가 생성한 시 또한 성공률을 크게 높였습니다. 일부 사례에서는 그 차이가 10배 이상에 달했으며, 여러 모델이 이러한 문체적 기교에 매우 취약한 것으로 드러나 인간이 작성한 시와 자동 생성된 시 모두 안전 필터를 유의미하게 약화시킬 수 있음을 보여주었습니다.
Q AI 모델이 시 기반 공격에 취약한 이유는 무엇입니까?
A 이러한 취약점은 모델이 단어 선택과 문맥에서 나타나는 암시적 단서를 따르는 데 매우 능숙하기 때문에 발생합니다. 시적인 표현은 해석의 방향을 돌려 안전 계층이 차단해야 할 콘텐츠를 생성하도록 유도할 수 있습니다. 문자 그대로의 의미나 토큰 수준의 패턴에만 집중하는 방어 시스템은 은유, 운율 또는 완곡한 표현과 같은 고차원적인 언어 구조를 이용한 공격을 놓칠 수 있습니다.
Q 시 기반의 탈옥(jailbreak)에 대응하기 위해 어떤 방어책이 추진되고 있습니까?
A 방어자들은 여러 경로를 모색하고 있습니다. 감지가 정형화된 유해성까지 일반화될 수 있도록 안전 분류기의 학습 데이터를 시, 은유, 완곡한 표현까지 확장하는 것, 입력 신호뿐만 아니라 출력물에서 발생하는 후속 규칙 위반을 표시하는 행동 기반 모니터링을 도입하는 것, 프롬프트와 답변 사이에 헌법적(constitutional) 계층이나 분류기 기반 계층을 두는 등의 구조적 변경, 그리고 앞서 나가기 위한 신속한 재학습을 동반한 지속적인 레드팀 활동 등이 있습니다.
Q 시적 조작에 대해 모델을 강화할 때 어떤 절충점(trade-off)이 발생합니까?
A 필터링 범위를 넓히면 오탐(false positives)의 위험이 있어 무해한 창작물까지 거부될 수 있습니다. 과도한 필터링은 사용자 경험을 저하시키고, 정당한 연구를 저해하며, 교육, 문학, 치료, 창의성 도구와 같이 미묘한 차이에 의존하는 사용 사례를 방해할 수 있습니다. 실질적인 방어책은 단일 분류기에 의존하기보다 입력 의미, 출력 동작, 출처, 사용자 패턴 등 여러 신호를 결합하여 정밀도(precision)와 재현율(recall) 사이의 균형을 맞춰야 합니다.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!