Esta semana, diversos informes revelaron que el Pentágono se acerca al uso de IA no probada en decisiones de vida o muerte para la identificación de objetivos, pasando de demostraciones a pilotos operativos que permitirían a los modelos generativos clasificar listas de objetivos potenciales y producir recomendaciones que los operadores humanos luego validarían. El plan, según se describe en sesiones informativas y en la cobertura reciente, no propone sistemas letales totalmente autónomos; en su lugar, el Departamento de Defensa se prepara para integrar modelos de lenguaje de gran tamaño y modelos generativos en los flujos de trabajo de identificación de objetivos como ayudas para la toma de decisiones. Este movimiento a corto plazo ha provocado alarma entre investigadores y especialistas en ética, quienes señalan modos de falla claros y medibles en los sistemas actuales y citan investigaciones recientes sobre IA médica que muestran cómo recomendaciones erróneas emitidas con total seguridad pueden propagarse dentro de los procesos operativos.
El Pentágono se acerca al uso de IA no probada en la identificación de objetivos: cambio operativo
Documentos e informes indican que el Pentágono está acelerando experimentos que introducen datos del campo de batalla en sistemas de IA generativa para producir listas de objetivos clasificadas y cursos de acción recomendados, dejando la decisión final en manos de humanos. La arquitectura propuesta trata a la IA como un asistente en lugar de un ejecutor: los modelos sintetizarían imágenes, señales y otros flujos de datos en opciones priorizadas y justificaciones de respaldo. Sus defensores argumentan que esto podría comprimir un ciclo de inteligencia prolongado, ayudando a los comandantes a procesar torrentes de datos de sensores durante escenarios de rápida evolución.
Sin embargo, llamar a un sistema "asistente" no elimina el riesgo operativo. Cuando modelos no verificados se envuelven en una cadena de toma de decisiones, los errores pueden aparecer no como fallas exóticas, sino como afirmaciones aparentemente plausibles: recomendaciones cortas y bien redactadas que parecen autoritarias. La frase "el Pentágono se acerca al uso de IA no probada" captura esa tensión: las máquinas se están preparando para tareas con consecuencias fatales antes de que el sector haya establecido métodos transparentes y estandarizados para medir la fiabilidad bajo condiciones adversas y casos límite.
El Pentágono se acerca al uso de IA no probada en la identificación de objetivos: modos de falla y paralelos médicos
Trabajos académicos recientes en medicina proporcionan una analogía concreta para los riesgos que enfrenta el Pentágono. Un gran estudio realizado por investigadores de la Icahn School of Medicine at Mount Sinai puso a prueba modelos de lenguaje líderes en notas clínicas y descubrió que los modelos repetían con frecuencia recomendaciones fabricadas si esas afirmaciones falsas estaban incrustadas en un texto realista. Los autores plantearon el problema como "¿puede este sistema transmitir una mentira?" e instaron a realizar pruebas de estrés a gran escala y verificaciones de evidencia externa antes de que los modelos se utilicen en la atención clínica.
Traduciendo esa idea a la identificación de objetivos, un modelo generativo podría aceptar o amplificar señales incorrectas (imágenes mal etiquetadas, metadatos de ubicación obsoletos o tácticas de engaño del adversario) y presentar una recomendación concisa y segura que un revisor humano podría tratar como creíble. Los adversarios pueden manipular deliberadamente las entradas, y la ambigüedad operativa rutinaria (mala iluminación, oclusión o actividad civil inocua) puede crear exactamente las condiciones donde la fluidez superficial de un modelo enmascara una incertidumbre profunda. El llamado del documento de Mount Sinai a realizar pruebas medibles y sistemáticas se aplica directamente: la IA militar debe ser sondeada con casos adversos, ambiguos y deliberadamente engañosos para estimar con qué frecuencia "transmitirá" una mala recomendación.
Supervisión humana, ley y salvaguardias
Funcionarios enfatizan que los humanos permanecerán en el bucle ("human-in-the-loop") y deberán validar las recomendaciones de la IA antes de cualquier acción cinética. Las arquitecturas con intervención humana, las revisiones legales y las reglas de enfrentamiento establecidas se citan como salvaguardias principales. En la práctica, sin embargo, la supervisión humana puede verse tensada por el ritmo: cuando los flujos de sensores inundan a los operadores con docenas de opciones priorizadas por la IA por hora, la revisión puede volverse superficial. Esa dinámica convierte un mecanismo de seguridad en una casilla de verificación de cumplimiento y permite que los errores sembrados por la IA superen los umbrales de juicio.
El derecho internacional y el derecho de los conflictos armados exigen distinción, proporcionalidad y precauciones en el ataque. Los asesores legales pueden revisar la doctrina y los casos en disputa, pero dependen de la calidad de la información presentada. Para que la supervisión sea significativa, las salvaguardias deben incluir pistas de auditoría que expongan qué datos influyeron en el modelo, métricas de confianza que estén calibradas y sean inteligibles para los revisores humanos, y una verificación obligatoria por un segundo canal para recomendaciones de consecuencias graves. Diversos académicos y tecnólogos sostienen que estas protecciones deberían formalizarse en protocolos vinculantes en lugar de guías internas ad hoc.
Brechas técnicas, éticas y de rendición de cuentas
La rendición de cuentas también es ambigua. Si una IA ofrece una lista clasificada y un operador humano la acepta bajo presión de tiempo, ¿quién asume la responsabilidad legal y moral cuando se daña a civiles? Las normas de la cadena de mando y las juntas de revisión interna pueden rastrear la culpa hacia arriba, pero los sobrevivientes y el público exigirán mecanismos de investigación transparentes e independientes. Eso implica registros robustos, retención de datos brutos de sensores y de los resultados del modelo, y procedimientos que permitan el análisis forense externo; nada de lo cual es estándar en los prototipos actuales.
Consecuencias para la guerra futura y las políticas
La introducción de la IA generativa en los flujos de trabajo de identificación de objetivos ahora dará forma a las prácticas en el campo de batalla durante años. Si los despliegues iniciales aceptan una mayor tasa de error porque ofrecen velocidad, la doctrina y el entrenamiento se adaptarán a ese compromiso, y los adversarios aprenderán a explotarlo. Por el contrario, un enfoque estricto y basado en evidencia que requiera validación externa, "red teaming" y verificación legal obligatoria ralentizaría la implementación, pero podría producir modelos que realmente reduzcan el riesgo con el tiempo.
Los responsables políticos se enfrentan a una elección entre la ventaja operativa rápida y el trabajo más lento de construir una seguridad verificable. Algunos analistas piden marcos de prueba formales, auditorías independientes y audiencias de supervisión en el Congreso para sopesar los beneficios estratégicos frente a los costos éticos y legales. Otros instan a crear normas o tratados internacionales para limitar el alcance de la asistencia de la IA en decisiones letales, argumentando que la imprevisibilidad técnica de los modelos generativos no probados es una base deficiente para juicios de vida o muerte.
Por ahora, el movimiento del Pentágono ilustra un patrón más amplio: organizaciones en los sectores de salud, finanzas y defensa se apresuran a integrar modelos capaces pero imperfectos en flujos de trabajo críticos. El estudio médico de Mount Sinai es un recordatorio de que la fluidez no equivale a la verdad, y que la evaluación rigurosa y específica del dominio no es negociable cuando hay vidas humanas en juego. Si la frase "el Pentágono se acerca al uso de IA no probada" describe una realidad operativa esta semana, la pregunta importante sigue siendo cómo el Departamento de Defensa y las instituciones de supervisión medirán, limitarán y gobernarán esos sistemas antes de que los errores se conviertan en tragedias.
Hasta que existan regímenes de prueba robustos y transparentes y garantías legales, advierten los expertos, el único camino responsable es la precaución: reducir el ritmo de despliegue, exigir pruebas de estrés adversas modelo por modelo e insistir en registros de grado forense y revisiones independientes. Esos pasos no eliminarán el riesgo, pero son lo mínimo necesario para pasar de una capacidad asistencial no probada a una herramienta confiable en la guerra.
Fuentes
- Icahn School of Medicine at Mount Sinai (estudio que mapea la susceptibilidad de los LLM a la desinformación médica)
- The Lancet Digital Health (medio de revisión por pares para el estudio de Mount Sinai)
- U.S. Department of Defense (sesiones informativas sobre políticas y planificación de la integración de la IA en la identificación de objetivos)
Comments
No comments yet. Be the first!