Claw AI 에이전트는 이메일, 소셜 미디어 피드, 코드 저장소와 같은 외부 소스의 데이터를 처리하기 위해 "하트비트(heartbeat)"로 알려진 특수한 백그라운드 실행 메커니즘을 활용합니다. 최근 연구에 따르면 **HEARTBEAT 취약점**으로 명명된 치명적인 설계 결함이 발견되었으며, 이를 통해 이러한 백그라운드 사이클 동안 접하게 되는 신뢰할 수 없는 콘텐츠가 에이전트의 메모리를 조용히 오염시킬 수 있는 것으로 나타났습니다. 이 설계 결함은 악의적이거나 오해의 소지가 있는 정보가 사용자 대면 상호작용에 사용되는 동일한 세션 컨텍스트로 유입되도록 허용하며, 결과적으로 사용자의 인지나 명시적 동의 없이 에이전트의 행동을 조작합니다.
Jie Zhang, Tianwei Zhang, Shiqian Zhao가 수행한 이번 연구는 AI 보안 리스크의 근본적인 변화를 조명합니다. 전통적으로 AI 취약점은 사용자나 공격자의 능동적인 프롬프트 주입을 필요로 했습니다. 그러나 HEARTBEAT 취약점은 **일반적인 소셜 미디어의 허위 정보**만으로도 에이전트를 침해하기에 충분하다는 것을 보여줍니다. 저자들은 **노출(Exposure, E) → 메모리(Memory, M) → 행동(Behavior, B)** 경로를 공식화함으로써, 백그라운드 데이터 수집이 여러 사용자 세션에 걸쳐 지속되는 "침묵의" 오염을 위한 영구적인 가교를 어떻게 형성하는지 설명합니다.
Claw의 백그라운드 실행은 어떻게 침묵의 메모리 오염을 유발하는가?
Claw의 백그라운드 실행은 에이전트가 4시간마다 외부 소스에서 지침을 주기적으로 가져와 자동으로 실행하도록 지시하는 커스텀 하트비트 규칙을 통해 침묵의 메모리 오염을 가능하게 합니다. 이를 통해 악성 데이터가 에이전트의 영구 메모리에 주입될 수 있으며, 이는 며칠 또는 몇 주 후 관련 없는 상호작용에 의해 트리거될 때까지 잠복 상태로 남아있게 됩니다.
Zhang 연구팀이 채택한 방법론에는 Moltbook이라는 플랫폼에서 에이전트 네이티브 소셜 환경을 시뮬레이션한 **MissClaw**라는 통제된 연구용 복제본이 포함되었습니다. 연구 결과, 백그라운드 세션과 포그라운드 세션의 아키텍처적 통합이 이러한 리스크의 주요 원인인 것으로 밝혀졌습니다. 하트비트 프로세스와 사용자 대화 사이에 엄격한 격리가 없기 때문에, 뉴스 피드나 메시지에서 수집된 콘텐츠가 사용자의 직접 입력과 동일한 우선순위로 취급됩니다. 연구의 주요 결과는 다음과 같습니다:
- 소셜 신뢰도 단서(Social Credibility Cues): 소셜 피드에서 인지된 합의는 단기적인 영향력의 지배적인 동인이 되며, **최대 61%의 오도율(misleading rates)**을 기록했습니다.
- 메모리 전이(Memory Transition): **Claw AI 에이전트**의 일상적인 메모리 저장 동작은 휘발성 세션 데이터를 최대 **91%**의 비율로 내구성 있는 장기 저장소로 승격시킵니다.
- 교차 세션 영향(Cross-Session Influence): 정보가 메모리에 기록되면, 원래의 데이터 소스와 관련이 없는 세션에서조차 후속 행동을 형성하는 능력이 **76%**에 달합니다.
이러한 오염의 "침묵하는" 특성은 사용자에게 **출처 기원(source provenance)**이 거의 제공되지 않음을 의미합니다. 에이전트가 권장 사항이나 요약을 제공할 때, 사용자는 해당 응답이 몇 시간 전 백그라운드에서 처리된 신뢰할 수 없는 이메일이나 소셜 미디어 게시물에 의해 형성되었다는 사실을 깨닫지 못할 수 있습니다.
공격자가 로컬 OpenClaw 인스턴스를 원격으로 탈취할 수 있는가?
중앙 서비스나 모니터링되는 데이터 피드가 침해될 경우 공격자는 OpenClaw 인스턴스를 원격으로 탈취할 수 있습니다. 연결된 에이전트가 하트비트 엔드포인트에서 지침을 자동으로 가져와 실행하기 때문에, 네트워크에 배포된 악성 업데이트가 연결된 모든 인스턴스에 수신 및 실행되어 광범위하고 은밀한 침해 경로를 생성하게 됩니다.
연구진은 특히 Claw 아키텍처의 오픈 소스 구현체인 **OpenClaw**의 원격 악용 가능성을 평가했습니다. 그들은 **HEARTBEAT 취약점**이 에이전트를 원격 명령의 수동적 리스너(listener)로 변모시킨다는 점을 발견했습니다. 콘텐츠가 종종 무해한 데이터에 의해 희석되는 자연스러운 브라우징 환경에서도 오염은 여전히 성공적으로 세션 경계를 넘나듭니다. 이는 정교한 컨텍스트 프루닝(context pruning)조차 현재로서는 공격자가 정교하게 타이밍을 맞춘 소셜 "하트비트"를 통해 에이전트의 로직을 조종하는 것을 막기에 불충분함을 시사합니다.
또한, 이 연구는 이러한 탈취에 공격자가 사용자의 하드웨어에 직접 접근할 필요가 없음을 나타냅니다. 에이전트가 모니터링하도록 프로그래밍된 피드(예: 특정 **GitHub 저장소** 또는 **Slack 채널**)에 허위 정보를 주입하는 것만으로도 공격자는 에이전트의 향후 응답을 효과적으로 "프로그래밍"할 수 있습니다. **컨텍스트 격리(contextual isolation)**의 부재는 에이전트가 소유자의 명령과 외부 RSS 피드에서 발견된 제안을 구분할 수 없음을 의미합니다.
메모리 포이즈닝으로부터 개인용 AI 에이전트를 보호하는 방법은?
메모리 포이즈닝으로부터 개인용 AI 에이전트를 보호하려면 신뢰 점수를 포함한 입력 중재, 출처 추적을 포함한 메모리 정화, 그리고 신뢰 기반 검색 시스템을 포함한 계층화된 방어 체계가 필요합니다. 또한 개발자는 메모리 무결성 감사와 비정상적인 행동 패턴 또는 승인되지 않은 메모리 기록이 감지될 때 작업을 중단하는 서킷 브레이커(circuit breakers)를 구현해야 합니다.
HEARTBEAT 취약점을 완화하기 위해 연구진은 몇 가지 아키텍처적 변화를 제안합니다. 가장 중요한 변화는 백그라운드 실행 환경을 기본 사용자 대면 세션으로부터 엄격하게 분리하는 **컨텍스트 샌드박싱(contextual sandboxing)**입니다. 이를 통해 사용자의 명시적인 검토 없이는 하트비트 중에 가져온 데이터가 활성 대화에 사용되는 단기 메모리로 유입되는 것을 방지할 수 있습니다. 제안된 다른 보안 모범 사례는 다음과 같습니다:
- 불변 감사 로그(Immutable Audit Logging): 이를 유발한 특정 "하트비트"나 외부 소스를 포함하여 모든 메모리 기록에 대한 투명한 기록을 유지합니다.
- 출처 기원 태그(Source Provenance Tags): **Claw AI 에이전트**가 모든 응답에 사용된 정보의 출처를 인용하도록 강제하여, 사용자가 답변이 신뢰할 수 없는 백그라운드 소스에서 파생되었는지 확인할 수 있도록 합니다.
- 행동 모니터링(Behavioral Monitoring): 에이전트 자신의 내부 상태에서 **메모리 오염**이나 급격한 페르소나 변화의 징후를 스캔하는 AI 기반 "와치독(watchdog)" 모델을 구현합니다.
- 격리 프로토콜(Quarantine Protocols): 사용자가 수집된 콘텐츠를 검증할 기회를 가질 때까지 백그라운드 데이터에 대해 "읽기 전용" 모드를 설정합니다.
Claw AI 에이전트가 일상적인 생산성과 의사 결정에 더욱 통합됨에 따라 "에이전트 네이티브" 보안의 필요성이 무엇보다 중요해졌습니다. Zhang 연구팀의 발견은 자율적인 백그라운드 실행의 편리함이 엄격한 **데이터 무결성** 체크와 균형을 이루어야 한다는 경고입니다. 향후 연구는 인간이 제공한 정보든 하트비트를 통해 제공된 정보든, 모든 정보가 에이전트의 영구적인 "인격"을 형성하도록 허용되기 전에 검증되는 AI 에이전트용 **제로 트러스트 아키텍처(zero-trust architectures)** 개발에 집중될 것으로 보입니다.
결론적으로, **HEARTBEAT 취약점**은 진정한 자율 AI 비서의 배포에 있어 중대한 장애물을 나타냅니다. **OpenClaw** 및 이와 유사한 플랫폼이 백그라운드 데이터 수집과 포그라운드 메모리 사이에 더 강력한 격리를 구현할 때까지, 사용자는 자신의 에이전트가 모니터링하도록 허용하는 외부 피드에 대해 경계해야 합니다. **프롬프트 주입**에서 **메모리 오염**으로의 전이는 AI 안전의 새로운 시대를 의미하며, 이 시대의 가장 큰 위협은 악의적인 사용자가 아니라 보이지 않는, 검증되지 않은 하트비트입니다.
Comments
No comments yet. Be the first!