W tym tygodniu doniesienia ujawniły, że Pentagon zbliża się do wykorzystania nieprzetestowanej sztucznej inteligencji w decyzjach o życiu i śmierci związanych ze wskazywaniem celów. Następuje przejście od fazy demonstracji do pilotaży operacyjnych, które pozwoliłyby modelom generatywnym na tworzenie rankingów potencjalnych celów i generowanie rekomendacji poddawanych następnie weryfikacji przez operatorów. Plan, opisany w odprawach i ostatnich doniesieniach medialnych, nie zakłada w pełni autonomicznych systemów śmiercionośnych; zamiast tego Departament Obrony przygotowuje się do zintegrowania dużych modeli językowych i generatywnych z procesami wskazywania celów jako narzędzi wspomagających podejmowanie decyzji. Ten bliski w czasie ruch wywołał alarm wśród naukowców i etyków, którzy wskazują na wyraźne, mierzalne tryby błędów w obecnych systemach oraz na niedawne badania nad medyczną sztuczną inteligencją, pokazujące, jak pewne siebie, lecz błędne rekomendacje mogą rozprzestrzeniać się w procesach operacyjnych.
Pentagon zbliża się do wykorzystania nieprzetestowanej AI przy wskazywaniu celów: zmiana operacyjna
Dokumenty i raporty wskazują, że Pentagon przyspiesza eksperymenty polegające na wprowadzaniu danych z pola walki do systemów generatywnej AI w celu tworzenia rankingowych list celów i rekomendowanych kierunków działań, przy czym ostateczna decyzja pozostaje w rękach ludzi. Proponowana architektura traktuje AI jako asystenta, a nie wykonawcę: modele miałyby syntetyzować obrazy, sygnały i inne dane w priorytetyzowane opcje wraz z uzasadnieniem. Zwolennicy twierdzą, że mogłoby to skrócić długi cykl wywiadowczy, pomagając dowódcom przetwarzać potoki danych z czujników w szybko zmieniających się scenariuszach.
Jednak nazwanie systemu „asystentem” nie eliminuje ryzyka operacyjnego. Gdy niezweryfikowane modele zostaną włączone w proces decyzyjny, błędy mogą pojawiać się nie jako egzotyczne awarie, ale jako pozornie wiarygodne twierdzenia – krótkie, dobrze sformułowane rekomendacje, które wyglądają na autorytatywne. Fraza „Pentagon zbliża się do wykorzystania nieprzetestowanej AI” oddaje to napięcie: maszyny są przygotowywane do zadań o fatalnych skutkach, zanim sektor zdążył ustanowić przejrzyste, standaryzowane metody pomiaru niezawodności w warunkach adwersaryjnych i w przypadkach brzegowych.
Pentagon zbliża się do wykorzystania nieprzetestowanej AI przy wskazywaniu celów: tryby błędów i paralele medyczne
Niedawne prace akademickie w dziedzinie medycyny stanowią konkretny analog dla ryzyk, przed którymi stoi Pentagon. Szeroko zakrojone badanie naukowców z Icahn School of Medicine at Mount Sinai przetestowało wiodące modele językowe na notatkach klinicznych i wykazało, że modele często powtarzały sfabrykowane rekomendacje, jeśli te fałszywe twierdzenia były osadzone w realistycznym tekście. Autorzy sformułowali problem jako pytanie: „czy ten system może przekazać kłamstwo?” i wezwali do przeprowadzenia testów warunków skrajnych na dużą skalę oraz weryfikacji dowodów zewnętrznych, zanim modele zostaną użyte w opiece klinicznej.
Przekładając te wnioski na wskazywanie celów, model generatywny może zaakceptować lub wzmocnić błędne sygnały – błędnie oznaczone obrazy, nieaktualne metadane lokalizacji lub zwodniczą taktykę przeciwnika – i przedstawić zwięzłą, pewną siebie rekomendację, którą ludzki recenzent mógłby uznać za wiarygodną. Przeciwnicy mogą celowo manipulować danymi wejściowymi, a rutynowa niejednoznaczność operacyjna (słabe oświetlenie, przesłonięcie lub niewinna aktywność cywilna) może stworzyć dokładnie takie warunki, w których powierzchowna biegłość modelu maskuje głęboką niepewność. Apel autorów pracy z Mount Sinai o mierzalne, systematyczne testy ma bezpośrednie zastosowanie: wojskowa AI musi być sprawdzana pod kątem przypadków adwersaryjnych, niejednoznacznych i celowo wprowadzających w błąd, aby oszacować, jak często będzie ona „przekazywać dalej” błędną rekomendację.
Nadzór ludzki, prawo i zabezpieczenia
Urzędnicy podkreślają, że ludzie pozostaną „w pętli” (human-in-the-loop) i muszą zatwierdzać rekomendacje AI przed jakimkolwiek działaniem kinetycznym. Architektury z udziałem człowieka, przeglądy prawne i ustalone zasady użycia siły są wymieniane jako główne zabezpieczenia. W praktyce jednak nadzór ludzki może być nadwerężony przez tempo operacji: gdy strumienie danych z czujników zalewają operatorów dziesiątkami opcji priorytetyzowanych przez AI na godzinę, weryfikacja może stać się powierzchowna. Taka dynamika zmienia mechanizm bezpieczeństwa w formalne odhaczenie zgodności i pozwala błędom zasianym przez AI na prześlizgnięcie się przez progi oceny.
Prawo międzynarodowe i prawo konfliktów zbrojnych wymagają rozróżnienia, proporcjonalności i zachowania środków ostrożności podczas ataku. Doradcy prawni mogą przeglądać doktryny i sporne przypadki, ale polegają oni na jakości przedstawionych informacji. Aby nadzór był znaczący, zabezpieczenia muszą obejmować ścieżki audytu ujawniające, które dane wpłynęły na model, wskaźniki ufności, które są skalibrowane i zrozumiałe dla ludzkich recenzentów, oraz obowiązkową weryfikację drugim kanałem dla rekomendacji o wysokich konsekwencjach. Kilku uczonych i technologów twierdzi, że te zabezpieczenia powinny zostać sformalizowane w wiążących protokołach, a nie w doraźnych wytycznych wewnętrznych.
Luki techniczne, etyczne i w zakresie odpowiedzialności
Odpowiedzialność jest również niejednoznaczna. Jeśli AI przedstawi rankingową listę, a ludzki operator zaakceptuje ją pod presją czasu, kto poniesie odpowiedzialność prawną i moralną w przypadku skrzywdzenia cywilów? Normy łańcucha dowodzenia i wewnętrzne komisje rewizyjne mogą kierować winę w górę hierarchii, ale ocalali i opinia publiczna będą domagać się przejrzystych, niezależnych mechanizmów dochodzeniowych. Oznacza to konieczność solidnego logowania, przechowywania surowych danych z czujników i wyników działania modeli oraz procedur umożliwiających zewnętrzną analizę śledczą – z których żadna nie jest standardem w obecnych prototypach.
Konsekwencje dla przyszłych wojen i polityki
Wprowadzenie generatywnej AI do procesów wskazywania celów już teraz ukształtuje praktyki na polu bitwy na lata. Jeśli wczesne wdrożenia zaakceptują wyższy wskaźnik błędów w zamian za szybkość, doktryna i szkolenia dostosują się do tego kompromisu – a przeciwnicy nauczą się go wykorzystywać. I odwrotnie, rygorystyczne, oparte na dowodach podejście wymagające zewnętrznej walidacji, red teamingu i prawnie nakazanej weryfikacji spowolniłoby wdrażanie, ale mogłoby przynieść modele, które z czasem rzeczywiście zredukują ryzyko.
Decydenci stają przed wyborem między szybką przewagą operacyjną a wolniejszą pracą nad budowaniem weryfikowalnego bezpieczeństwa. Niektórzy analitycy wzywają do stworzenia formalnych ram testowych, niezależnych audytów i przesłuchań nadzorczych w Kongresie, aby zważyć korzyści strategiczne względem kosztów etycznych i prawnych. Inni postulują przyjęcie międzynarodowych norm lub traktatów ograniczających zakres wsparcia AI w decyzjach o użyciu śmiercionośnej siły, argumentując, że techniczna nieprzewidywalność nieprzetestowanych modeli generatywnych jest marnym fundamentem dla osądów dotyczących życia i śmierci.
Obecnie ruch Pentagonu ilustruje szerszy wzorzec: organizacje z sektora zdrowia, finansów i obronności spieszą się, by osadzić zdolne, ale niedoskonałe modele w krytycznych procesach. Badanie medyczne z Mount Sinai przypomina, że biegłość nie równa się prawdzie, a rygorystyczna, specyficzna dla danej dziedziny ewaluacja nie podlega negocjacjom, gdy stawką jest ludzkie życie. Jeśli fraza „Pentagon zbliża się do wykorzystania nieprzetestowanej AI” opisuje rzeczywistość operacyjną tego tygodnia, istotnym pytaniem pozostaje to, jak Departament Obrony i instytucje nadzorcze będą mierzyć, ograniczać i zarządzać tymi systemami, zanim błędy staną się tragediami.
Eksperci ostrzegają, że dopóki nie zostaną wprowadzone solidne, przejrzyste systemy testowe i gwarancje prawne, jedyną odpowiedzialną ścieżką jest ostrożność: spowolnienie tempa wdrażania, wymóg adwersaryjnych testów warunków skrajnych dla każdego modelu z osobna oraz naleganie na logi klasy kryminalistycznej i niezależną rewizję. Kroki te nie wyeliminują ryzyka, ale są absolutnym minimum potrzebnym do przejścia od nieprzetestowanej zdolności wspomagającej do niezawodnego narzędzia prowadzenia działań wojennych.
Źródła
- Icahn School of Medicine at Mount Sinai (badanie mapujące podatność LLM na dezinformację medyczną)
- The Lancet Digital Health (miejsce publikacji recenzowanego badania Mount Sinai)
- U.S. Department of Defense (odprawy polityczne i planowanie integracji AI w procesach wskazywania celów)
Comments
No comments yet. Be the first!