Uit berichtgeving van deze week bleek dat het Pentagon op het punt staat niet-geteste AI te gebruiken voor beslissingen over leven en dood bij doelwitselectie. De overstap wordt gemaakt van demonstraties naar operationele pilotprojecten waarbij generatieve modellen lijsten met potentiële doelwitten rangschikken en aanbevelingen doen die vervolgens door menselijke operatoren worden gecontroleerd. Het plan, zoals beschreven in briefings en recente berichtgeving, stelt geen volledig autonome dodelijke systemen voor; in plaats daarvan bereidt het Department of Defense zich voor op de integratie van grote taalmodellen en generatieve modellen in workflows voor doelwitselectie als hulpmiddelen bij de besluitvorming. Deze stap op korte termijn heeft geleid tot verontrusting onder onderzoekers en ethici, die wijzen op duidelijke, meetbare foutmodi in huidige systemen en op recent medisch AI-onderzoek dat laat zien hoe zelfverzekerde onjuiste aanbevelingen zich binnen operationele processen kunnen verspreiden.
Pentagon nadert gebruik van niet-geteste AI voor doelwitselectie: operationele verschuiving
Documenten en berichtgeving geven aan dat het Pentagon experimenten versnelt waarbij slagveldgegevens in generatieve AI-systemen worden ingevoerd om gerangschikte doelwitlijsten en aanbevolen handelwijzen te produceren, waarbij de definitieve beslissing bij mensen blijft liggen. De voorgestelde architectuur beschouwt de AI eerder als een assistent dan als een beul: modellen zouden beelden, signalen en andere feeds synthetiseren tot geprioriteerde opties en ondersteunende argumentaties. Voorstanders stellen dat dit een langdurige inlichtingencyclus zou kunnen verkorten, waardoor commandanten stromen sensorgegevens kunnen verwerken tijdens snel veranderende scenario's.
Maar een systeem een "assistent" noemen neemt het operationele risico niet weg. Wanneer niet-geteste modellen in een besluitvormingspijplijn worden opgenomen, kunnen fouten niet verschijnen als exotische defecten, maar als ogenschijnlijk plausibele beweringen—korte, goed geformuleerde aanbevelingen die autoritair ogen. De zinsnede "Pentagon nadert gebruik van niet-geteste AI" vat die spanning samen: de machines worden klaargemaakt voor taken met fatale gevolgen voordat de sector transparante, gestandaardiseerde methoden heeft vastgesteld om betrouwbaarheid te meten onder vijandige omstandigheden en in randgevallen.
Pentagon nadert gebruik van niet-geteste AI voor doelwitselectie: foutmodi en medische parallellen
Recent academisch werk in de geneeskunde biedt een concreet equivalent voor de risico's waarmee het Pentagon wordt geconfronteerd. Een grootschalig onderzoek van onderzoekers aan de Icahn School of Medicine bij Mount Sinai testte vooraanstaande taalmodellen op klinische notities en ontdekte dat modellen regelmatig gefabriceerde aanbevelingen herhaalden als die valse claims waren ingebed in realistische tekst. De auteurs formuleerden het probleem als "kan dit systeem een leugen doorgeven?" en drongen aan op grootschalige stresstests en controles met externe bewijzen voordat modellen in de klinische zorg worden gebruikt.
Als we dat inzicht vertalen naar doelwitselectie, zou een generatief model onjuiste signalen kunnen accepteren of versterken—verkeerd gelabelde beelden, verouderde locatie-metadata of misleidende tactieken van de tegenstander—en een beknopte, zelfverzekerde aanbeveling kunnen presenteren die een menselijke beoordelaar als geloofwaardig zou kunnen beschouwen. Tegenstanders kunnen opzettelijk inputs manipuleren, en routineuze operationele ambiguïteit (slechte verlichting, occlusie of onschadelijke civiele activiteiten) kan precies de omstandigheden creëren waarin de oppervlakkige welsprekendheid van een model diepe onzekerheid maskeert. De oproep van het Mount Sinai-artikel tot meetbare, systematische tests is direct van toepassing: militaire AI moet worden onderzocht met vijandige, ambigue en opzettelijk misleidende gevallen om in te schatten hoe vaak het een slechte aanbeveling zal "doorgeven".
Menselijk toezicht, wetgeving en waarborgen
Functionarissen benadrukken dat mensen in de loop blijven en AI-aanbevelingen moeten valideren vóór elke kinetische actie. "Human-in-the-loop"-architecturen, juridische beoordelingen en vastgestelde geweldsinstructies worden genoemd als primaire waarborgen. In de praktijk kan het menselijk toezicht echter onder druk komen te staan door het tempo: wanneer sensorstromen operatoren overspoelen met tientallen door AI geprioriteerde opties per uur, kan de controle oppervlakkig worden. Die dynamiek verandert een veiligheidsmechanisme in een vinkje voor naleving en zorgt ervoor dat fouten die door AI zijn geïntroduceerd, langs de beoordelingsdrempels glippen.
Het internationaal recht en het oorlogsrecht vereisen onderscheid, proportionaliteit en voorzorgsmaatregelen bij een aanval. Juridisch adviseurs kunnen de doctrine en omstreden zaken beoordelen, maar zij zijn afhankelijk van de kwaliteit van de gepresenteerde informatie. Om toezicht betekenisvol te laten zijn, moeten waarborgen bestaan uit audittrails die blootleggen welke gegevens het model hebben beïnvloed, betrouwbaarheidsmetrieken die gekalibreerd en begrijpelijk zijn voor menselijke beoordelaars, en verplichte verificatie via een tweede kanaal voor aanbevelingen met grote gevolgen. Verschillende wetenschappers en technologen pleiten ervoor dat deze beschermingen worden geformaliseerd in bindende protocollen in plaats van ad-hoc interne richtlijnen.
Technische, ethische en verantwoordelijkheidshiaten
Verantwoordelijkheid is ook ambigu. Als een AI een gerangschikte lijst geeft en een menselijke operator deze onder tijdsdruk accepteert, wie draagt dan de juridische en morele verantwoordelijkheid wanneer burgers gewond raken? Normen voor de commandostructuur en interne beoordelingscommissies kunnen de schuld naar boven herleiden, maar overlevenden en het publiek zullen transparante, onafhankelijke onderzoekmechanismen eisen. Dat betekent robuuste logging, het bewaren van ruwe sensorgegevens en modeloutputs, en procedures die externe forensische analyse mogelijk maken—zaken die in de huidige prototypen niet standaard zijn.
Gevolgen voor toekomstige oorlogvoering en beleid
Het nu introduceren van generatieve AI in workflows voor doelwitselectie zal de praktijken op het slagveld jarenlang vormgeven. Als vroege implementaties een hoger foutenpercentage accepteren omdat ze snelheid bieden, zullen doctrine en training zich aan die afweging aanpassen—en tegenstanders zullen leren deze te exploiteren. Omgekeerd zou een strikte, op bewijs gebaseerde benadering die externe validatie, "red teaming" en wettelijk verplichte verificatie vereist, de inzet vertragen maar op termijn modellen kunnen opleveren die het risico daadwerkelijk verminderen.
Beleidsmakers staan voor de keuze tussen snel operationeel voordeel en het tragere werk van het opbouwen van verifieerbare veiligheid. Sommige analisten pleiten voor formele testkaders, onafhankelijke audits en hoorzittingen in het Congres om strategische voordelen af te wegen tegen ethische en juridische kosten. Anderen dringen aan op internationale normen of verdragen om de reikwijdte van AI-ondersteuning bij dodelijke beslissingen te beperken, met het argument dat de technische onvoorspelbaarheid van niet-geteste generatieve modellen een slechte basis is voor beslissingen over leven en dood.
Vooralsnog illustreert de stap van het Pentagon een breder patroon: organisaties in de gezondheidszorg, financiële sector en defensie haasten zich om capabele maar imperfecte modellen in kritieke workflows te integreren. De medische studie van Mount Sinai herinnert ons eraan dat welsprekendheid niet gelijkstaat aan waarheid, en dat rigoureuze, domeinspecifieke evaluatie onvermijdelijk is wanneer mensenlevens op het spel staan. Als de zinsnede "Pentagon nadert gebruik van niet-geteste AI" deze week een operationele realiteit beschrijft, blijft de belangrijke vraag hoe het DoD en toezichthoudende instanties die systemen zullen meten, beperken en beheren voordat fouten tragedies worden.
Totdat er robuuste, transparante testregimes en juridische garanties zijn, waarschuwen experts dat voorzichtigheid de enige verantwoorde weg is: vertraag het tempo van de inzet, eis vijandige stresstests per model en sta op logs van forensische kwaliteit en onafhankelijke beoordeling. Die stappen zullen het risico niet wegnemen, maar ze zijn het minimum dat nodig is om van een niet-geteste ondersteunende capaciteit naar een betrouwbaar instrument in oorlogvoering te gaan.
Bronnen
- Icahn School of Medicine at Mount Sinai (onderzoek naar de vatbaarheid van LLM's voor medische desinformatie)
- The Lancet Digital Health (peer-review tijdschrift voor de Mount Sinai-studie)
- U.S. Department of Defense (beleidsbriefings en planning over AI-integratie bij doelwitselectie)
Comments
No comments yet. Be the first!