米国防総省、未検証のAIによる標的選定の運用が目前に

人工知能 By Mattias Risberg 3月 19, 2026 10:12

米国防総省は、標的の優先順位付けと推奨に生成AIを活用する方向へと進んでいる。しかし、研究者らはこれらのシステムが未検証であり、自信満々に誤りを犯す（ハルシネーション）リスクがあると警告している。専門家は、生死に関わる実戦配備の前に、厳格なストレス・テスト、法的審査、そしてより強力な人間による監視を求めている。

今週の報道により、米国防総省（ペンタゴン）が生死に関わる標的選定の意思決定において、未検証のAIの導入を目前に控えていることが明らかになった。実証段階から運用パイロットへと移行し、生成モデルに潜在的な標的リストの順位付けを行わせ、人間のオペレーターが精査するための推奨案を作成させるという。ブリーフィングや最近の報道で説明されたこの計画は、完全に自律した殺傷兵器システムを提案するものではない。むしろ国防総省は、意思決定の支援手段として、大規模言語モデルや生成モデルを標的選定のワークフローに統合しようとしている。この短期的な動きは、現在のシステムにおける明確かつ測定可能な失敗モードを指摘し、自信満々に誤った推奨案が運用プロセス内に伝播する様子を示した最近の医療AI研究を引き合いに出す研究者や倫理学者の間で、警戒感を引き起こしている。

ペンタゴン、標的選定における未検証AIの導入が間近に：運用の転換

文書と報道によれば、国防総省は戦場のデータを生成AIシステムに投入し、ランク付けされた標的リストと推奨される行動計画を作成する実験を加速させており、最終的な判断は人間に委ねられるとしている。提案されているアーキテクチャでは、AIを実行者ではなくアシスタントとして扱う。モデルは画像、信号、その他のフィードを統合し、優先順位付けされた選択肢とそれを裏付ける根拠を生成する。推進派は、これにより長いインテリジェンス・サイクルを圧縮でき、動きの速いシナリオにおいて指揮官が大量のセンサーデータを処理するのに役立つと主張している。

しかし、システムを「アシスタント」と呼んだところで、運用のリスクがなくなるわけではない。未検証のモデルが意思決定パイプラインに組み込まれると、エラーは突飛な不具合としてではなく、一見もっともらしい主張、つまり権威があるように見える、簡潔で適切に表現された推奨案として現れる可能性がある。「ペンタゴンが未検証のAI導入を目前に控えている」という言葉は、その緊張感を捉えている。敵対的条件やエッジケース（境界事例）における信頼性を測定するための透明で標準化された手法が業界で確立される前に、致命的な結果を招くタスクに機械が投入されようとしているのだ。

ペンタゴン、標的選定における未検証AIの導入が間近に：失敗モードと医療との類似点

最近の医学分野の学術研究は、国防総省が直面しているリスクに対する具体的な類似例を提示している。Icahn School of Medicine at Mount Sinai（マウントサイナイ・アイカーン医科大学）の研究者らによる大規模な調査では、主要な言語モデルを臨床記録でテストした結果、現実的なテキストの中に虚偽の主張が埋め込まれている場合、モデルが捏造された推奨案を頻繁に繰り返すことが判明した。著者らはこの問題を「このシステムは嘘を伝播させるか？」と定義し、モデルが臨床ケアで使用される前に、大規模なストレス・テストと外部証拠のチェックを行うよう促した。

その知見を標的選定に当てはめると、生成モデルは誤った信号（誤ったラベルが付けられた画像、古い位置メタデータ、あるいは敵の欺瞞戦術など）を受け入れ、あるいは増幅させ、人間のレビュー担当者が信頼できると判断しかねない簡潔で自信に満ちた推奨案を提示する可能性がある。敵対者は意図的に入力を操作することができ、日常的な運用の曖昧さ（照明不足、遮蔽、あるいは無害な市民活動）は、モデルの表面的な流暢さが深い不確実性を覆い隠すという、まさにその条件を作り出す可能性がある。マウントサイナイの論文が求めている測定可能で体系的なテストは、直接的に当てはまる。軍事AIは、不適切な推奨案をどの程度の頻度で「伝播」させるかを推定するために、敵対的で曖昧、かつ意図的に誤解を招くケースを用いて調査されなければならない。

人間の監視、法律、およびセーフガード

当局は、人間がループ内（in the loop）に留まり、いかなるキネティック・アクション（物理的攻撃）の前にもAIの推奨案を検証しなければならないことを強調している。ヒューマン・イン・ザ・ループのアーキテクチャ、法的審査、確立された交戦規定が主要なセーフガードとして挙げられている。しかし、実際には、人間の監視はテンポによって負担がかかる可能性がある。センサー・ストリームが1時間あたり数十ものAIが優先順位を付けた選択肢をオペレーターに浴びせるようになると、レビューは形骸化する恐れがある。その力学は、安全メカニズムを単なるコンプライアンスのチェック項目に変えてしまい、AIによって植え付けられたエラーが判断の閾値をすり抜けることを許してしまう。

国際法および武力紛争法は、攻撃における区別、比例、予防を求めている。法務アドバイザーは教義や係争中のケースを検討できるが、提示される情報の質に依存することになる。監視を有意義なものにするためには、どのデータがモデルに影響を与えたかを明らかにする監査証跡（オーディット・トレイル）、人間のレビュー担当者が理解でき、調整された信頼性メトリクス、そして重大な結果を招く推奨案に対する第2チャンネルによる義務的な検証をセーフガードに含める必要がある。複数の学者や技術者は、こうした保護策は場当たり的な内部指針ではなく、拘束力のあるプロトコルとして公式化されるべきだと主張している。

技術的、倫理的、および説明責任のギャップ

説明責任も曖昧である。AIがランク付けされたリストを提示し、時間のプレッシャーの下で人間のオペレーターがそれを受け入れた結果、民間人に被害が出た場合、誰が法的および道徳的責任を負うのか。指揮系統の規範や内部審査委員会は責任を上層部まで追及するかもしれないが、生存者や公衆は透明性のある独立した調査メカニズムを求めるだろう。それは、堅牢なログ記録、生のセンサーデータとモデル出力の保持、そして外部のフォレンジック（科学捜査）分析を可能にする手順を意味するが、現在のプロトタイプのどれ一つとして標準化されていない。

将来の戦争と政策への影響

今、標的選定のワークフローに生成AIを導入することは、今後何年にもわたって戦場の慣行を形作ることになる。初期の配備において、スピード向上の代償として高いエラー率を許容してしまえば、教義や訓練はそのトレードオフに適応し、敵対者はそれを悪用することを学ぶだろう。逆に、外部検証、レッドチーム演習、法的に義務付けられた検証を必要とする厳格でエビデンスに基づいたアプローチは、実戦投入を遅らせるかもしれないが、時間の経過とともに実際にリスクを低減するモデルを生み出す可能性がある。

政策立案者は、迅速な運用の優位性と、検証可能な安全性を構築するという時間のかかる作業の間の選択を迫られている。一部のアナリストは、戦略的利益と倫理的・法的コストを天秤にかけるために、正式なテスト枠組み、独立した監査、および議会の監視公聴会を求めている。また、未検証の生成モデルの技術的な予測不能さは、生死の判断を下す基盤としては不適切であると主張し、致死的な意思決定におけるAI支援の範囲を制限するための国際規範や条約を促す者もいる。

現在のところ、ペンタゴンの動きはより広範なパターンを浮き彫りにしている。医療、金融、防衛といった分野の組織が、有能ではあるが不完全なモデルを重要なワークフローに組み込もうと急いでいるのだ。マウントサイナイによる医学研究は、流暢さが真実と等価ではないこと、そして人命が懸かっている場合には、ドメイン固有の厳格な評価が不可欠であることを思い出させてくれる。「ペンタゴンが未検証のAI導入を目前に控えている」という言葉が今週の運用の現実を表しているのだとすれば、重要な問いとして残るのは、国防総省と監視機関が、間違いが惨劇に変わる前に、いかにしてそれらのシステムを測定し、制限し、統治するかということだ。

堅牢で透明性のあるテスト体制と法的保証が整うまでは、慎重さが唯一の責任ある道であると専門家は警告している。配備のテンポを落とし、モデルごとに敵対的ストレス・テストを要求し、フォレンジック級のログと独立したレビューを求めることだ。これらのステップはリスクを完全に排除するものではないが、未検証のアシスト機能から、戦争における信頼できるツールへと移行するために最低限必要なものである。

Sources

Icahn School of Medicine at Mount Sinai (study mapping LLM susceptibility to medical misinformation)
The Lancet Digital Health (peer-review venue for the Mount Sinai study)
U.S. Department of Defense (policy briefings and planning on AI integration in targeting)

Mattias Risberg

Cologne-based science & technology reporter tracking semiconductors, space policy and data-driven investigations.

University of Cologne (Universität zu Köln) • Cologne, Germany

Readers Questions Answered

ペンタゴンは目標選定の意思決定において、AIをどのように活用することを計画していますか？

ペンタゴンは、「エージェント・ネットワーク（Agent Network）」や「スウォーム・フォージ（Swarm Forge）」といったプロジェクトを通じて、戦闘管理、意思決定支援、およびキルチェーンの実行にAIを活用することを計画しています。これらの取り組みは、AIをキャンペーン計画や作戦上の意思決定に統合することで、目標選定と戦闘能力を加速させることを目的としています。この戦略は、軍事的な殺傷能力と効率性を高めるための「AIファースト」のアプローチを強調しています。

軍事利用における「未テストのAI」とは何を意味し、なぜ議論を呼んでいるのですか？

「未テストのAI」とは、ペンタゴンが一般公開から30日以内の迅速な採用を推進していることに見られるように、現実世界の軍事シナリオにおいて徹底的な事前テストを行わずに急速に配備されるAIモデルやシステムを指します。これが物議を醸しているのは、ストレス下での誤作動、敵対的な攻撃、または戦闘中における予測不能な行動のリスクがあり、誤った判断につながる可能性があるためです。生死に関わる状況において信頼性が実証されていないことは、安全性と有効性に関する懸念を引き起こしています。

生死を分ける目標選定の意思決定にAIを使用することから生じる、安全性および倫理的な懸念は何ですか？

安全面での懸念には、混沌とした環境でのAIの失敗、ネットワークの劣化、または敵対的な操作が含まれ、これらは誤った目標選定や民間人の犠牲を招く可能性があります。倫理面での問題は、人間の判断力、責任、道徳的推論を欠いた機械に生死の決断を委ねることに集中しています。十分なテストを行わないまま迅速な配備を進めることは、意図しない致命的な結果をもたらすリスクを増大させます。

AIが致命的な目標選定のミスを犯すのを防ぐために、どのような安全策が存在しますか？

安全策には、配備前にミッションのベンチマーク、人間とAIのチームパフォーマンス、および作戦上のストレスに対してAIモデルをテストするための評価インフラの開発が含まれます。国防イノベーション部門（DIU）は、敵対的な攻撃に対する自動化されたレッドチーミング・システムや、意思決定者のための明確なスコアリング指標を求めています。「ペースセッティング・プロジェクト（Pace-Setting Projects）」に関する月次の進捗報告によって監視が確保されていますが、致命的なミスの完全な防止策はまだ実証されていません。

ペンタゴンは戦争における目標選定にAIを配備することにどの程度近づいており、その影響は何ですか？

ペンタゴンは戦争の目標選定におけるAIの配備に非常に近づいています。2026年1月の戦略ではAIファーストの運用が義務付けられており、ペースセッティング・プロジェクトが進行中で、2026年に向けた30日以内のモデル配備目標も掲げられています。その影響としては、軍事的な優位性が高まる一方で、意思決定の高速化や自律化により、エラー、倫理違反、紛争の激化を招くリスクが増大することが挙げられます。批判的な専門家は、テストが不十分であるため、実戦において意図しない結果を招く可能性があると指摘しています。

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!