Luka HEARTBEAT w Claw AI umożliwia ciche zanieczyszczanie pamięci

Breaking News Technologia
Glowing cyan digital neural network node with red glitching light fragments against a dark, minimalist tech background.
4K Quality
Badacze zidentyfikowali architektoniczną lukę bezpieczeństwa w agentach Claw AI, która pozwala procesom przetwarzania danych w tle na ciche zanieczyszczanie pamięci agenta. Podatność ta, nazwana „HEARTBEAT”, pokazuje, jak informacje pobierane z zewnętrznych źródeł mogą wpływać na przyszłe odpowiedzi udzielane użytkownikom bez jasnego wskazania ich pochodzenia.

Agenci Claw AI wykorzystują specjalistyczny mechanizm wykonywania w tle, znany jako „heartbeat” (tętno), do przetwarzania danych z zewnętrznych źródeł, takich jak poczta e-mail, kanały mediów społecznościowych i repozytoria kodu. Niedawne badania zidentyfikowały krytyczną wadę architektoniczną nazwaną luką HEARTBEAT, która pozwala niezaufanym treściom napotkanym podczas tych cykli w tle na ciche zanieczyszczenie pamięci agenta. Ta wada projektowa umożliwia złośliwym lub wprowadzającym w błąd informacjom przedostanie się do tego samego kontekstu sesji, który jest używany w interakcjach z użytkownikiem, skutecznie manipulując zachowaniem agenta bez wiedzy lub wyraźnej zgody użytkownika.

Badania przeprowadzone przez Jie Zhanga, Tianwei Zhanga i Shiqian Zhao podkreślają fundamentalną zmianę w ryzyku bezpieczeństwa AI. Tradycyjnie luki w AI wymagały aktywnego wstrzykiwania poleceń (prompt injection) ze strony użytkownika lub napastnika; jednak luka HEARTBEAT dowodzi, że zwykła dezinformacja społecznościowa wystarczy, aby skompromitować agenta. Formalizując ścieżkę Ekspozycja (E) → Pamięć (M) → Zachowanie (B), autorzy ilustrują, jak pozyskiwanie danych w tle tworzy trwały most dla „cichego” skażenia, które utrzymuje się w wielu sesjach użytkownika.

W jaki sposób wykonywanie w tle w Claw umożliwia ciche zanieczyszczenie pamięci?

Wykonywanie w tle w Claw umożliwia ciche zanieczyszczenie pamięci poprzez niestandardową regułę heartbeat, która instruuje agenta, aby okresowo (co 4 godziny lub częściej) pobierał instrukcje z zewnętrznych źródeł i automatycznie je wykonywał. Pozwala to na wstrzyknięcie złośliwych danych do pamięci trwałej agenta, gdzie pozostają one uśpione do czasu wyzwolenia przez niepowiązane interakcje kilka dni lub tygodni później.

Metodologia zastosowana przez Zhanga i wspólników obejmowała kontrolowaną replikę badawczą o nazwie MissClaw, która symulowała natywne dla agenta środowisko społecznościowe na platformie Moltbook. Badanie wykazało, że architektoniczna integracja sesji w tle i na pierwszym planie jest głównym czynnikiem generującym to ryzyko. Ponieważ nie ma ścisłej izolacji między procesem „heartbeat” a konwersacją z użytkownikiem, treści pobrane z kanałów informacyjnych lub wiadomości są traktowane z takim samym priorytetem jak bezpośrednie dane wejściowe od użytkownika. Kluczowe wnioski z badań obejmują:

  • Sygnały wiarygodności społecznej: Postrzegany konsensus w kanałach społecznościowych jest dominującym czynnikiem krótkoterminowego wpływu, prowadzącym do wskaźników wprowadzania w błąd na poziomie do 61%.
  • Przejście pamięci: Rutynowe zachowania polegające na zapisywaniu pamięci w Agentach Claw AI promują ulotne dane sesji do trwałej pamięci długoterminowej we wskaźniku sięgającym 91%.
  • Wpływ między sesjami: Gdy informacja trafi do pamięci, jej zdolność do kształtowania późniejszych zachowań osiąga 76%, nawet w sesjach niezwiązanych z oryginalnym źródłem danych.

Ta „cicha” natura zanieczyszczenia oznacza, że użytkownikom rzadko prezentowana jest proweniencja źródła. Gdy agent przedstawia rekomendację lub podsumowanie, użytkownik może nie zdawać sobie sprawy, że odpowiedź została ukształtowana przez niezaufaną wiadomość e-mail lub post w mediach społecznościowych, przetworzony kilka godzin wcześniej w tle.

Czy napastnicy mogą zdalnie przejąć lokalne instancje OpenClaw?

Napastnicy mogą zdalnie przejąć instancje OpenClaw, jeśli usługa centralna lub monitorowane kanały danych zostaną skompromitowane. Ponieważ podłączone agenty automatycznie pobierają i wykonują instrukcje z punktu końcowego heartbeat, złośliwe aktualizacje przesyłane do sieci są odbierane i wykonywane przez wszystkie podłączone instancje, tworząc powszechny i cichy wektor ataku.

Naukowcy szczegółowo ocenili potencjał zdalnej eksploatacji OpenClaw, otwartoźródłowej implementacji architektury Claw. Odkryli, że luka HEARTBEAT przekształca agenta w pasywnego słuchacza zdalnych poleceń. W naturalnych warunkach przeglądania – gdzie złośliwa treść jest często rozmyta przez dane niegroźne – zanieczyszczenie wciąż skutecznie przekracza granice sesji. Sugeruje to, że nawet zaawansowane przycinanie kontekstu jest obecnie niewystarczające, aby zapobiec sterowaniu logiką agenta przez napastnika za pomocą starannie wymierzonych w czasie społecznościowych „tętnień”.

Ponadto badanie wskazuje, że takie przejęcie nie wymaga od napastnika bezpośredniego dostępu do sprzętu użytkownika. Wstrzykując dezinformację do kanału, który agent ma zaprogramowany do monitorowania – takiego jak konkretne repozytorium GitHub lub kanał Slack – napastnik może skutecznie „zaprogramować” przyszłe reakcje agenta. Brak izolacji kontekstowej oznacza, że agent nie potrafi odróżnić polecenia od swojego właściciela od sugestii znalezionej w zewnętrznym kanale RSS.

Jak zabezpieczyć osobistego agenta AI przed zatruciem pamięci?

Zabezpieczenie osobistych agentów AI przed zatruciem pamięci wymaga wielowarstwowej obrony, w tym moderacji danych wejściowych z oceną zaufania, sanityzacji pamięci ze śledzeniem pochodzenia oraz systemów wyszukiwania uwzględniających zaufanie. Dodatkowo deweloperzy powinni wdrożyć audyt integralności pamięci i bezpieczniki (circuit breakers), które wstrzymują operacje w przypadku wykrycia anomalnych wzorców zachowań lub nieautoryzowanych zapisów w pamięci.

Aby złagodzić skutki luki HEARTBEAT, badacze proponują kilka zmian architektonicznych. Najważniejszą zmianą jest kontekstowy sandboxing, w którym środowiska wykonywania w tle są ściśle odizolowane od głównej sesji z użytkownikiem. Zapobiegłoby to przedostawaniu się danych pobranych podczas tętna (heartbeat) do pamięci krótkotrwałej używanej w aktywnych rozmowach bez wyraźnego przeglądu ze strony użytkownika. Inne proponowane najlepsze praktyki bezpieczeństwa obejmują:

  • Niezmienne dzienniki audytu: Prowadzenie przejrzystego rejestru każdego zapisu w pamięci, w tym konkretnego „tętna” lub zewnętrznego źródła, które go wywołało.
  • Tagi pochodzenia źródła: Zmuszanie Agentów Claw AI do cytowania źródła informacji użytych w każdej odpowiedzi, co pozwoli użytkownikom zidentyfikować, czy odpowiedź pochodzi z niezaufanego źródła w tle.
  • Monitorowanie behawioralne: Wdrażanie opartych na AI modeli nadzorczych („watchdog”), które skanują stan wewnętrzny agenta pod kątem oznak zanieczyszczenia pamięci lub radykalnych zmian w osobowości.
  • Protokoły kwarantanny: Ustanowienie trybu „tylko do odczytu” dla danych z tła, dopóki użytkownik nie będzie miał możliwości zweryfikowania pobranych treści.

W miarę jak Agenci Claw AI stają się coraz bardziej zintegrowani z codzienną produktywnością i podejmowaniem decyzji, konieczność stosowania zabezpieczeń „natywnych dla agentów” staje się nadrzędna. Wnioski Zhanga i wspólników służą jako ostrzeżenie, że wygoda autonomicznego wykonywania zadań w tle musi być zrównoważona rygorystycznymi kontrolami integralności danych. Przyszłe badania prawdopodobnie skupią się na opracowaniu architektur zero-trust dla agentów AI, w których każda informacja – dostarczona przez człowieka czy przez „tętno” – jest weryfikowana, zanim pozwolimy jej kształtować trwałą „osobowość” agenta.

Podsumowując, luka HEARTBEAT stanowi znaczącą przeszkodę we wdrażaniu prawdziwie autonomicznych asystentów AI. Dopóki OpenClaw i podobne platformy nie wdrożą silniejszej izolacji między pozyskiwaniem danych w tle a pamięcią operacyjną, użytkownicy muszą zachować czujność w kwestii zewnętrznych kanałów, które pozwalają monitorować swoim agentom. Przejście od wstrzykiwania poleceń (Prompt Injection) do zanieczyszczania pamięci (Memory Pollution) wyznacza nową erę w bezpieczeństwie AI – taką, w której największym zagrożeniem nie jest złośliwy użytkownik, lecz ciche, niezweryfikowane tętno systemu.

James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Readers Questions Answered

Q W jaki sposób wykonywanie w tle w systemie Claw umożliwia ciche zanieczyszczanie pamięci?
A Wykonywanie w tle w systemie Claw umożliwia ciche zanieczyszczanie pamięci poprzez niestandardową regułę typu „heartbeat”, która instruuje agenta, aby okresowo (co 4 godziny lub rzadziej) pobierał instrukcje z witryny moltbook.com i automatycznie je wykonywał. Pozwala to na wstrzykiwanie złośliwych instrukcji do trwałej pamięci agenta i ich realizację bez wiedzy użytkownika, gdzie pozostają one w uśpieniu do momentu wyzwolenia przez niepowiązane interakcje kilka dni lub tygodni później.
Q Czy napastnicy mogą zdalnie przejąć lokalne instancje OpenClaw?
A Tak, napastnicy mogą zdalnie przejąć instancje OpenClaw, jeśli operator lub usługa moltbook.com zostaną skompromitowane. Ponieważ połączone agenty automatycznie pobierają i wykonują instrukcje z punktu końcowego „heartbeat”, złośliwe aktualizacje przesłane do moltbook.com zostałyby odebrane i wykonane przez wszystkie połączone agenty, tworząc wektor ataku o szerokim zasięgu.
Q Jak zabezpieczyć osobistego agenta AI przed zatruciem pamięci?
A Zabezpieczenie osobistych agentów AI przed zatruciem pamięci wymaga wielowarstwowej obrony, obejmującej moderację danych wejściowych z oceną zaufania, sanityzację pamięci ze śledzeniem pochodzenia oraz systemy wyszukiwania uwzględniające poziom zaufania. Dodatkowo należy wdrożyć audyt integralności pamięci z niemodyfikowalnym logowaniem zdarzeń, monitorowanie behawioralne w celu wykrywania anomalnych działań agenta oraz wyłączniki bezpieczeństwa (circuit breakers), które automatycznie wstrzymują operacje po wykryciu naruszenia, umożliwiając szybką kwarantannę i unieważnienie poświadczeń.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!