Уязвимость HEARTBEAT в Claw AI позволяет незаметно загрязнять память

Breaking News Технологии
Glowing cyan digital neural network node with red glitching light fragments against a dark, minimalist tech background.
4K Quality
Исследователи обнаружили архитектурную уязвимость в агентах Claw AI, которая позволяет фоновым процессам обработки данных скрыто загрязнять память системы. Эта брешь, получившая название HEARTBEAT, демонстрирует, как информация из внешних источников может влиять на будущие ответы пользователям без возможности отследить её происхождение.

Агенты Claw AI используют специализированный механизм фонового выполнения, известный как «heartbeat» (сердцебиение), для обработки данных из внешних источников, таких как электронная почта, ленты социальных сетей и репозитории кода. Недавнее исследование выявило критический архитектурный недостаток, получивший название уязвимость HEARTBEAT, который позволяет недоверенному контенту, встреченному во время этих фоновых циклов, незаметно загрязнять память агента. Этот дефект проектирования позволяет вредоносной или вводящей в заблуждение информации попадать в тот же контекст сессии, который используется для взаимодействия с пользователем, эффективно манипулируя поведением агента без ведома или явного согласия пользователя.

Исследование, проведенное Jie Zhang, Tianwei Zhang и Shiqian Zhao, подчеркивает фундаментальный сдвиг в рисках безопасности ИИ. Традиционно уязвимости ИИ требовали активной промпт-инъекции со стороны пользователя или злоумышленника; однако уязвимость HEARTBEAT демонстрирует, что обычной социальной дезинформации достаточно для компрометации агента. Сформулировав путь Воздействие (E) → Память (M) → Поведение (B), авторы иллюстрируют, как фоновый сбор данных создает устойчивый мост для «скрытого» заражения, которое сохраняется на протяжении нескольких пользовательских сессий.

Как фоновое выполнение в Claw делает возможным скрытое загрязнение памяти?

Фоновое выполнение в Claw обеспечивает скрытое загрязнение памяти через настраиваемое правило «heartbeat», которое предписывает агенту периодически (каждые 4+ часа) запрашивать инструкции из внешних источников и автоматически следовать им. Это позволяет внедрять вредоносные данные в долговременную память агента, где они остаются в спящем состоянии до тех пор, пока не будут активированы несвязанными взаимодействиями спустя дни или недели.

Методология, использованная Zhang и др., включала создание контролируемой исследовательской реплики под названием MissClaw, которая имитировала нативную социальную среду агента на платформе Moltbook. Исследование показало, что основным фактором этого риска является архитектурная интеграция фоновых и приоритетных сессий. Поскольку между процессом «heartbeat» и диалогом с пользователем нет строгой изоляции, контент, полученный из новостных лент или сообщений, обрабатывается с тем же приоритетом, что и прямые команды пользователя. Ключевые выводы исследования включают:

  • Сигналы социального доверия: Воспринимаемый консенсус в социальных лентах является доминирующим фактором краткосрочного влияния, что приводит к показателям введения в заблуждение до 61%.
  • Переход в память: Рутинные процедуры сохранения памяти в агентах Claw AI способствуют переходу изменчивых данных сессии в устойчивое долговременное хранилище с вероятностью до 91%.
  • Межсессионное влияние: Как только информация попадает в память, ее способность определять последующее поведение достигает 76%, даже в сессиях, не связанных с исходным источником данных.

«Скрытый» характер этого загрязнения означает, что пользователям редко предоставляются данные о происхождении источника. Когда агент выдает рекомендацию или резюме, пользователь может не осознавать, что ответ был сформирован под влиянием недоверенного электронного письма или поста в социальных сетях, обработанного часами ранее в фоновом режиме.

Могут ли злоумышленники удаленно захватить локальные инстансы OpenClaw?

Злоумышленники могут удаленно захватить инстансы OpenClaw, если центральный сервис или отслеживаемые потоки данных скомпрометированы. Поскольку подключенные агенты автоматически получают и исполняют инструкции из эндпоинта «heartbeat», вредоносные обновления, разосланные по сети, принимаются и исполняются всеми подключенными экземплярами, создавая вектор масштабной и скрытой компрометации.

Исследователи специально оценили потенциал удаленной эксплуатации OpenClaw, реализации архитектуры Claw с открытым исходным кодом. Они обнаружили, что уязвимость HEARTBEAT превращает агента в пассивного слушателя удаленных команд. В условиях естественного веб-серфинга, где вредоносный контент часто разбавлен безобидными данными, загрязнение все равно успешно преодолевает границы сессий. Это говорит о том, что даже современные методы очистки контекста в настоящее время недостаточны для предотвращения управления логикой агента со стороны злоумышленника с помощью точно рассчитанных социальных сигналов «heartbeat».

Кроме того, исследование указывает на то, что такой захват не требует от злоумышленника прямого доступа к оборудованию пользователя. Просто внедряя дезинформацию в ленту, которую агент запрограммирован отслеживать — например, в определенный репозиторий GitHub или канал Slack — атакующий может эффективно «запрограммировать» будущие ответы агента. Отсутствие контекстной изоляции означает, что агент не может отличить команду владельца от предложения, найденного во внешней RSS-ленте.

Как защитить вашего персонального ИИ-агента от отравления памяти?

Защита персональных ИИ-агентов от отравления памяти требует многоуровневой обороны, включая модерацию входных данных с оценкой доверия, санацию памяти с отслеживанием происхождения и системы извлечения данных, учитывающие степень доверия. Кроме того, разработчикам следует внедрить аудит целостности памяти и автоматические выключатели (circuit breakers), которые останавливают работу при обнаружении аномальных поведенческих паттернов или несанкционированной записи в память.

Для смягчения уязвимости HEARTBEAT исследователи предлагают несколько архитектурных изменений. Самым критическим изменением является контекстная изоляция («песочница»), при которой среды фонового выполнения строго изолированы от основной пользовательской сессии. Это предотвратит попадание данных, полученных во время «heartbeat», в кратковременную память, используемую для активных диалогов, без явного рассмотрения пользователем. Другие предлагаемые меры безопасности включают:

  • Неизменяемые журналы аудита: Ведение прозрачного реестра каждой записи в память, включая конкретный «heartbeat» или внешний источник, который ее инициировал.
  • Теги происхождения источника: Принуждение агентов Claw AI цитировать источник информации, использованной в каждом ответе, что позволяет пользователям определить, был ли ответ получен из недоверенного фонового источника.
  • Мониторинг поведения: Внедрение ИИ-моделей типа «сторожевой пес», которые сканируют внутреннее состояние агента на предмет признаков загрязнения памяти или радикальных изменений в поведении.
  • Протоколы карантина: Установление режима «только для чтения» для фоновых данных до тех пор, пока у пользователя не появится возможность проверить поглощенный контент.

По мере того как агенты Claw AI все больше интегрируются в повседневную работу и процессы принятия решений, необходимость в защите, ориентированной на специфику агентов, становится первостепенной. Выводы Zhang и др. служат предупреждением о том, что удобство автономного фонового выполнения должно быть сбалансировано строгими проверками целостности данных. Будущие исследования, вероятно, сосредоточатся на разработке архитектур с нулевым доверием (zero-trust) для ИИ-агентов, где каждая порция информации — будь то предоставленная человеком или полученная через «heartbeat» — проходит проверку, прежде чем ей будет позволено влиять на устойчивую «личность» агента.

В заключение, уязвимость HEARTBEAT представляет собой серьезное препятствие для развертывания по-настоящему автономных ИИ-помощников. Пока OpenClaw и подобные платформы не внедрят более сильную изоляцию между фоновым сбором данных и оперативной памятью, пользователи должны сохранять бдительность в отношении внешних каналов, которые они разрешают отслеживать своим агентам. Переход от промпт-инъекций к загрязнению памяти знаменует собой новую эру в безопасности ИИ, где главной угрозой является не злонамеренный пользователь, а скрытое, непроверенное «сердцебиение» системы.

James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Readers Questions Answered

Q Как фоновое выполнение в Claw способствует скрытому загрязнению памяти?
A Фоновое выполнение в Claw обеспечивает скрытое загрязнение памяти с помощью настраиваемого правила heartbeat, которое предписывает агенту периодически (каждые 4+ часа) запрашивать инструкции с сайта moltbook.com и автоматически выполнять их. Это позволяет внедрять вредоносные инструкции в постоянную память агента и исполнять их без ведома пользователя; они могут оставаться в спящем состоянии, пока не будут активированы несвязанными взаимодействиями через несколько дней или недель.
Q Могут ли злоумышленники удаленно захватить управление локальными экземплярами OpenClaw?
A Да, злоумышленники могут удаленно захватить экземпляры OpenClaw, если оператор или сервис moltbook.com будут скомпрометированы. Поскольку подключенные агенты автоматически запрашивают и выполняют инструкции из конечной точки heartbeat, вредоносные обновления, отправленные на moltbook.com, будут получены и выполнены всеми подключенными агентами, создавая масштабный вектор компрометации.
Q Как защитить персонального ИИ-агента от отравления памяти?
A Защита персональных ИИ-агентов от отравления памяти требует эшелонированной обороны, включая модерацию входных данных с оценкой доверия, очистку памяти с отслеживанием происхождения данных и системы поиска, учитывающие уровень доверия. Кроме того, необходимо внедрить аудит целостности памяти с неизменяемым логированием, поведенческий мониторинг для обнаружения аномальных действий агента и автоматические выключатели (circuit breakers), которые мгновенно останавливают операции при обнаружении взлома, обеспечивая быстрый карантин и отзыв учетных данных.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!