Pentagon rückt Einsatz ungetesteter KI bei der Zielauswahl näher

KI
Pentagon Nears Untested AI in Targeting
Das Pentagon plant den Einsatz generativer KI zur Einstufung und Empfehlung von Zielen – Systeme, vor denen Forscher warnen, da sie ungetestet und anfällig für Fehlentscheidungen trotz hoher KI-Konfidenz sind. Experten fordern strenge Stresstests, rechtliche Prüfungen und eine stärkere menschliche Aufsicht vor jedem lebensentscheidenden Einsatz.

Berichte enthüllten diese Woche, dass das Pentagon kurz davor steht, ungetestete KI bei lebenswichtigen Entscheidungen zur Zielerfassung einzusetzen. Dabei erfolgt der Übergang von Demonstrationen hin zu operativen Pilotprojekten, bei denen generative Modelle Listen potenzieller Ziele gewichten und Empfehlungen aussprechen, die dann von menschlichen Bedienern geprüft werden. Der Plan, wie er in Briefings und der jüngsten Berichterstattung beschrieben wird, sieht keine vollautonomen letalen Systeme vor; stattdessen bereitet sich das Verteidigungsministerium darauf vor, große Sprachmodelle und generative Modelle als Entscheidungshilfen in die Arbeitsabläufe der Zielerfassung zu integrieren. Dieser kurzfristige Schritt hat bei Forschern und Ethikern Alarm ausgelöst, die auf eindeutige, messbare Fehlermodi in aktuellen Systemen sowie auf jüngste medizinische KI-Forschung hinweisen, die zeigt, wie sich mit Überzeugung vorgetragene falsche Empfehlungen in operativen Prozessen verbreiten können.

Pentagon steht kurz vor Einsatz ungetesteter KI bei der Zielerfassung: Operativer Wandel

Dokumente und Berichte deuten darauf hin, dass das Pentagon Experimente beschleunigt, bei denen Schlachtfelddaten in generative KI-Systeme eingespeist werden, um gewichtete Ziellisten und empfohlene Handlungsoptionen zu erstellen, wobei die endgültige Entscheidung Menschen überlassen bleibt. Die vorgeschlagene Architektur behandelt die KI eher als Assistenten denn als Scharfrichter: Modelle würden Bildmaterial, Signale und andere Feeds zu priorisierten Optionen und unterstützenden Begründungen synthetisieren. Befürworter argumentieren, dass dies einen langwierigen Geheimdienstzyklus verkürzen könnte und Kommandeuren hilft, in sich schnell entwickelnden Szenarien Fluten von Sensordaten zu verarbeiten.

Ein System jedoch als „Assistenten“ zu bezeichnen, beseitigt nicht das operative Risiko. Wenn ungeprüfte Modelle in eine Entscheidungskette eingebunden werden, können Fehler nicht als exotische Ausfälle erscheinen, sondern als scheinbar plausible Behauptungen – kurze, gut formulierte Empfehlungen, die autoritär wirken. Die Formulierung, dass das Pentagon kurz vor dem Einsatz ungetesteter KI steht, fängt dieses Spannungsfeld ein: Maschinen werden auf Aufgaben mit fatalen Folgen vorbereitet, bevor der Sektor transparente, standardisierte Methoden zur Messung der Zuverlässigkeit unter adversarischen Bedingungen und in Grenzfällen (Edge Cases) etabliert hat.

Pentagon steht kurz vor Einsatz ungetesteter KI bei der Zielerfassung: Fehlermodi und medizinische Parallelen

Jüngste akademische Arbeiten in der Medizin liefern eine konkrete Parallele zu den Risiken, denen das Pentagon gegenübersteht. Eine umfassende Studie von Forschern der Icahn School of Medicine at Mount Sinai testete führende Sprachmodelle anhand klinischer Notizen und stellte fest, dass Modelle häufig erfundene Empfehlungen wiederholten, wenn diese Falschaussagen in realistisch wirkenden Text eingebettet waren. Die Autoren formulierten das Problem als die Frage: „Kann dieses System eine Lüge weitergeben?“ und drängten auf groß angelegte Stresstests und Abgleiche mit externen Belegen, bevor Modelle in der klinischen Versorgung eingesetzt werden.

Überträgt man diese Erkenntnis auf die Zielerfassung, könnte ein generatives Modell unkorrekte Signale – falsch beschriftetes Bildmaterial, veraltete Standortmetadaten oder täuschende Taktiken des Gegners – akzeptieren oder verstärken und eine prägnante, selbstbewusste Empfehlung präsentieren, die ein menschlicher Prüfer als glaubwürdig einstufen könnte. Gegner können Eingaben gezielt manipulieren, und routinemäßige operative Mehrdeutigkeiten (schlechte Lichtverhältnisse, Verdeckungen oder harmlose zivile Aktivitäten) können genau jene Bedingungen schaffen, unter denen die oberflächliche Eloquenz eines Modells tiefe Unsicherheit kaschiert. Die Forderung der Mount-Sinai-Studie nach messbaren, systematischen Tests lässt sich direkt übertragen: Militärische KI muss mit adversarischen, mehrdeutigen und bewusst irreführenden Fällen sondiert werden, um abzuschätzen, wie oft sie eine schlechte Empfehlung „weitergeben“ wird.

Menschliche Aufsicht, Recht und Schutzmaßnahmen

Beamte betonen, dass der Mensch weiterhin eingebunden bleibt („Human-in-the-Loop“) und KI-Empfehlungen validieren muss, bevor kinetische Maßnahmen ergriffen werden. Human-in-the-Loop-Architekturen, rechtliche Prüfungen und etablierte Einsatzregeln (Rules of Engagement) werden als primäre Schutzmaßnahmen angeführt. In der Praxis kann die menschliche Aufsicht jedoch durch das Tempo überlastet werden: Wenn Sensordatenströme die Bediener mit Dutzenden von KI-priorisierten Optionen pro Stunde fluten, kann die Prüfung oberflächlich werden. Diese Dynamik verwandelt einen Sicherheitsmechanismus in ein bloßes Kontrollkästchen für Konformität und ermöglicht es, dass von der KI gesetzte Fehler die Urteilsschwellen passieren.

Das Völkerrecht und das Recht bewaffneter Konflikte erfordern Unterscheidung, Verhältnismäßigkeit und Vorsichtsmaßnahmen beim Angriff. Rechtsberater können Doktrinen und strittige Fälle prüfen, sind dabei jedoch auf die Qualität der präsentierten Informationen angewiesen. Damit die Aufsicht sinnvoll ist, müssen die Schutzmaßnahmen Prüfpfade umfassen, die offenlegen, welche Daten das Modell beeinflusst haben, Konfidenzmetriken, die kalibriert und für menschliche Prüfer verständlich sind, sowie eine obligatorische Verifizierung über einen zweiten Kanal für Empfehlungen mit schwerwiegenden Folgen. Mehrere Wissenschaftler und Technologen argumentieren, dass diese Schutzmaßnahmen in verbindlichen Protokollen formalisiert werden sollten, anstatt nur in ad-hoc erstellten internen Leitlinien.

Technische, ethische und Verantwortlichkeitslücken

Auch die Rechenschaftspflicht ist unklar. Wenn eine KI eine gewichtete Liste erstellt und ein menschlicher Bediener diese unter Zeitdruck akzeptiert, wer trägt dann die rechtliche und moralische Verantwortung, wenn Zivilisten zu Schaden kommen? Normen der Befehlskette und interne Prüfungsausschüsse mögen die Schuld nach oben verfolgen, aber Überlebende und die Öffentlichkeit werden transparente, unabhängige Untersuchungsmechanismen fordern. Das bedeutet robuste Protokollierung, Aufbewahrung von Rohsensordaten und Modellausgaben sowie Verfahren, die eine externe forensische Analyse ermöglichen – all dies ist in aktuellen Prototypen nicht standardmäßig vorgesehen.

Konsequenzen für die künftige Kriegsführung und Politik

Die Einführung generativer KI in die Arbeitsabläufe der Zielerfassung wird die Praktiken auf dem Schlachtfeld über Jahre hinweg prägen. Wenn frühere Einsätze eine höhere Fehlerrate akzeptieren, weil sie Schnelligkeit liefern, werden sich Doktrin und Ausbildung an diesen Kompromiss anpassen – und Gegner werden lernen, dies auszunutzen. Umgekehrt würde ein strenger, evidenzbasierter Ansatz, der externe Validierung, Red-Teaming und gesetzlich vorgeschriebene Verifizierung erfordert, die Einführung zwar verlangsamen, könnte aber Modelle hervorbringen, die das Risiko im Laufe der Zeit tatsächlich verringern.

Politische Entscheidungsträger stehen vor der Wahl zwischen schnellen operativen Vorteilen und der mühsameren Arbeit am Aufbau verifizierbarer Sicherheit. Einige Analysten fordern formale Testrahmen, unabhängige Audits und Anhörungen zur parlamentarischen Aufsicht, um strategische Vorteile gegen ethische und rechtliche Kosten abzuwägen. Andere drängen auf internationale Normen oder Verträge, um den Umfang der KI-Unterstützung bei letalen Entscheidungen einzuschränken, mit dem Argument, dass die technische Unvorhersehbarkeit ungetesteter generativer Modelle eine schlechte Grundlage für Entscheidungen über Leben und Tod darstellt.

Vorerst illustriert der Schritt des Pentagons ein breiteres Muster: Organisationen im Gesundheitswesen, im Finanzwesen und im Verteidigungssektor beeilen sich, leistungsfähige, aber unvollkommene Modelle in kritische Arbeitsabläufe zu integrieren. Die medizinische Studie von Mount Sinai ist eine Mahnung, dass Eloquenz nicht gleichbedeutend mit Wahrheit ist und dass eine strenge, domänenspezifische Bewertung unverzichtbar ist, wenn Menschenleben auf dem Spiel stehen. Wenn die Formulierung, dass das Pentagon kurz vor dem Einsatz ungetesteter KI steht, in dieser Woche eine operative Realität beschreibt, bleibt die wichtige Frage, wie das Verteidigungsministerium und die Aufsichtsinstitutionen diese Systeme messen, begrenzen und steuern werden, bevor Fehler zu Tragödien werden.

Bis robuste, transparente Testregime und rechtliche Garantien etabliert sind, warnen Experten, sei Vorsicht der einzige verantwortungsvolle Weg: Das Tempo der Bereitstellung drosseln, adversarische Stresstests für jedes einzelne Modell verlangen und auf forensisch verwertbare Protokolle sowie unabhängige Prüfungen bestehen. Diese Schritte werden das Risiko nicht eliminieren, aber sie sind das Minimum, das erforderlich ist, um von einer ungetesteten assistierenden Kapazität zu einem zuverlässigen Werkzeug in der Kriegsführung zu gelangen.

Quellen

  • Icahn School of Medicine at Mount Sinai (Studie zur Anfälligkeit von LLMs für medizinische Fehlinformationen)
  • The Lancet Digital Health (Peer-Review-Journal für die Mount-Sinai-Studie)
  • U.S. Department of Defense (Politik-Briefings und Planung zur KI-Integration in der Zielerfassung)
Mattias Risberg

Mattias Risberg

Cologne-based science & technology reporter tracking semiconductors, space policy and data-driven investigations.

University of Cologne (Universität zu Köln) • Cologne, Germany

Readers

Leserfragen beantwortet

Q Wofür plant das Pentagon den Einsatz von KI bei Zielentscheidungen?
A Das Pentagon plant den Einsatz von KI für Gefechtsführung, Entscheidungsunterstützung und die Ausführung der Wirkungskette (Kill Chain) durch Projekte wie Agent Network und Swarm Forge. Diese Initiativen zielen darauf ab, die Zielerfassung und Kriegführungsfähigkeiten zu beschleunigen, indem KI in die Kampagnenplanung und operative Entscheidungen integriert wird. Die Strategie betont einen „AI-first“-Ansatz zur Steigerung der militärischen Letalität und Effizienz.
Q Was bedeutet „ungetestete KI“ in militärischen Anwendungen und warum ist sie umstritten?
A „Ungetestete KI“ bezieht sich auf KI-Modelle und -Systeme, die ohne umfassende vorherige Tests in realen militärischen Szenarien schnell eingesetzt werden, wie der Vorstoß des Pentagons zur schnellen Einführung innerhalb von 30 Tagen nach der öffentlichen Freigabe zeigt. Dies ist aufgrund der Risiken von Fehlfunktionen unter Stress, gegnerischen Angriffen oder unvorhersehbarem Verhalten im Kampf umstritten, was potenziell zu Fehlentscheidungen führen kann. Der Mangel an nachgewiesener Zuverlässigkeit in Kontexten, in denen es um Leben und Tod geht, wirft Bedenken hinsichtlich der Sicherheit und Wirksamkeit auf.
Q Welche Sicherheitsbedenken und ethischen Fragen ergeben sich aus dem Einsatz von KI für lebenswichtige Zielentscheidungen?
A Zu den Sicherheitsbedenken gehören KI-Fehler in chaotischen Umgebungen, Netzwerkverschlechterungen oder gegnerische Manipulationen, die zu falschen Zielerfassungen und zivilen Opfern führen könnten. Ethische Fragen konzentrieren sich auf die Übertragung von Entscheidungen über Leben und Tod an Maschinen, denen es an menschlichem Urteilsvermögen, Rechenschaftspflicht und moralischem Denken mangelt. Ein schneller Einsatz ohne vollständige Tests verstärkt die Risiken unbeabsichtigter tödlicher Folgen.
Q Welche Schutzmaßnahmen gibt es, um zu verhindern, dass KI tödliche Zielfehler macht?
A Zu den Schutzmaßnahmen gehört die Entwicklung einer Evaluierungsinfrastruktur, um KI-Modelle vor dem Einsatz gegen Missions-Benchmarks, die Leistung von Mensch-KI-Teams und operativen Stress zu testen. Die Defense Innovation Unit sucht nach Systemen für automatisiertes „Red-Teaming“ gegen gegnerische Angriffe und klare Bewertungsmetriken für Entscheidungsträger. Monatliche Fortschrittsberichte über wegweisende Projekte (Pace-Setting Projects) gewährleisten die Aufsicht, obwohl eine vollständige Vermeidung tödlicher Fehler unbewiesen bleibt.
Q Wie kurz steht das Pentagon vor dem Einsatz von KI bei der Zielerfassung im Krieg und was sind die Auswirkungen?
A Das Pentagon steht kurz davor, KI bei der Zielerfassung im Krieg einzusetzen. Eine Strategie vom Januar 2026 schreibt „AI-first“-Operationen vor, wobei entsprechende Projekte bereits laufen und das Ziel verfolgt wird, Modelle im Jahr 2026 innerhalb von 30 Tagen bereitzustellen. Zu den Auswirkungen gehören eine erhöhte militärische Dominanz, aber auch ein höheres Risiko für Fehler, ethische Verstöße und eine Eskalation in Konflikten aufgrund schnellerer, autonomer Entscheidungen. Kritiker weisen auf unzureichende Tests hin, die potenziell zu unbeabsichtigten Folgen in der aktiven Kriegführung führen könnten.

Haben Sie eine Frage zu diesem Artikel?

Fragen werden vor der Veröffentlichung geprüft. Wir beantworten die besten!

Kommentare

Noch keine Kommentare. Seien Sie der Erste!