What is OmniPredict and what does it do?

OmniPredict is a multimodal AI system that uses a large language model architecture to fuse visual inputs with contextual signals and forecast a pedestrian's likely next move in real time. It accepts wide-angle scene images, close-up crops of pedestrians, bounding-box coordinates, and vehicle telemetry, and outputs probabilistic predictions about actions such as crossing, pausing in occluded areas, or shifting gaze.

How does OmniPredict classify pedestrian behavior?

OmniPredict maps its multimodal inputs to four behavior categories relevant for driving: crossing, occlusion, actions, and gaze. It uses cross-modal attention to link a distant body orientation with a local gesture, enabling predictions without hand-coded rules and allowing the model to infer short-term movement from the combination of pose, head direction, and context.

How well does it perform on benchmarks, and what are the caveats?

In lab tests, OmniPredict achieved about 67% prediction accuracy on JAAD and WiDEVIEW benchmarks, roughly 10 percentage points higher than recent baselines. Yet benchmark performance does not automatically translate to road safety; these datasets have narrower scenario distributions, and real-world driving can present rare events and adversarial conditions that challenge the model. The claim of generalisation beyond training data is highlighted by researchers as a key headline.

What needs to happen before deployment and what concerns exist?

Before deployment, OmniPredict remains a research prototype requiring long-term field trials, rigorous safety validation under corner cases, and integration tests showing how predictions influence motion planning. The work also calls for standards on acceptable false-positive and false-negative rates, plus ongoing auditing for bias, privacy, and the potential for a behavioural feedback loop where people change how they act around anticipatory systems.

Does OmniPredict read minds or access internal mental states?

Is OmniPredict attempting to read minds? The researchers emphasize that the system is not accessing internal intent or consciousness; it transforms visual cues and contextual data into statistical forecasts of near-term movement learned from past data, which can be confident yet incorrect if situations differ from training patterns.

OmniPredictが歩行者の次の動きを予測

都市の街路において、最も安全な一瞬の判断とは、往々にして下す必要すらない判断のことだ。今週、Texas A&Mの研究者らと韓国の共同研究チームは、道路上の人物を特定するだけでなく、その人物が次に何をするかを推論しようとするAIシステム「OmniPredict」を発表した。査読付き学術誌『Computers & Electrical Engineering』に掲載された論文によると、OmniPredictは、シーン画像、クローズアップ映像、バウンディングボックス、車両テレメトリ、そして単純な行動の手がかりを融合させ、歩行者の可能性の高い行動をリアルタイムで予測する。

単なる検知ではなく、先読みするモデル

従来の自動運転スタックでは、認識と計画が分離されている。カメラやLiDARが物体を検知し、その後のモジュールがブレーキやステアリングの操作を決定する。OmniPredictは、この硬直したパイプラインを、視覚情報と文脈的な入力を融合させるマルチモーダル大規模言語モデル（MLLM）アーキテクチャに置き換え、人間の行動に関する確率的な予測——道路を渡るのか、遮蔽された場所で立ち止まるのか、車両の方を見るのか、あるいは別の行動をとるのか——を生成する。研究チームはラボテストにおいて、確立された歩行者行動のベンチマークで約67%の予測精度を報告しており、これは最新の従来手法と比較して約10ポイントの性能向上にあたる。

研究者たちは、この進歩を「反応的な自動化」から「先読み的な自律性」への転換と位置づけている。プロジェクトリーダーは、「都市は予測不能であり、歩行者も予測不能になり得る」と述べ、道路への飛び出しを予測できる車は、より早くスムーズに計画を立てることができ、ニアミスの削減につながる可能性があると指摘した。その成果は、人間の心を読み取る預言者のようなものではなく、ポーズ、頭の向き、遮蔽、車速といった視覚的な手がかりを、短期的な動きの予測へと変換する統計エンジンである。

OmniPredictはいかにしてシーンを読み取るか

技術的な中核として、OmniPredictは、チャットや画像タスクで利用が増えているMLLMアーキテクチャを、ビデオフレームや構造化された文脈信号を解釈できるように適応させて使用している。入力には、広角のシーン画像、個々の歩行者のズームクロップ、バウンディングボックスの座標、そして車両速度などの単純なセンサーデータが含まれる。モデルはこれらのマルチモーダルなストリームを共に処理し、走行環境において有用であると判断された4つの行動カテゴリー（横断、遮蔽、アクション、視線）にマッピングする。

2つの特性が重要である。第一に、MLLMのクロスモーダル・アテンションにより、モデルは、手作業でコーディングされた規則なしに、遠くの体の向きと局所的なジェスチャー（例えば、スマートフォンを見下ろしながら胴体をひねる動作など）を結びつけることができる。第二に、このシステムは汎化性能を備えているようだ。研究者らは、歩行者行動に関する2つの困難な公開データセット（JAADおよびWiDEVIEW）でOmniPredictを実行した。データセット固有の調整を行わなかったにもかかわらず、依然として最新技術を上回る結果が得られた。この汎化こそが主要な主張であり、研究グループがOmniPredictを、生の認識層の上に位置する「推論」層と表現する理由である。

ベンチマーク、限界、そして現実との乖離

ベンチマークは物語の一端を語るに過ぎない。報告された67%の精度と、最近のベースラインに対する10%の改善は学術的な比較においては意義深いが、それがそのまま公道での安全性に直結するわけではない。ベンチマークには多くの繰り返されるパターンが含まれており、実際の都市走行よりもシナリオの分布が狭い。システムがラボを離れると、稀なイベント、敵対的行動、異常気象などがモデルの前提を覆すことがよくある。

批判的な意見を持つ人々は、「人の心を読み取る」という言葉が結果を誇張しすぎるリスクがあると即座に指摘する。モデルの予測は、過去のデータから学習された統計的な相関に基づいている。つまり、訓練セット内の同様の視覚的文脈が同様の結果を導いたということだ。それは強力ではあるが、人間の意図や内面的な精神状態にアクセスすることとは異なる。実際、歩行者は地域の文化、道路設計、社会的シグナリングの影響を受ける。これらの層を考慮しないAIは、自信に満ちていながらも誤った予測を下す可能性がある。

安全性、プライバシー、行動フィードバック

車両が「人間がどう行動するか」という予測に基づいて計画を立てるようになると、それに応じて人間の行動も変化する可能性がある。これは時に「行動フィードバックループ」と呼ばれる。車が自分たちを先読みしてくれると知っている人々は、より大きなリスクを冒すようになるか、逆に慎重になりすぎるかもしれない。どちらの力学も、モデルが依存している統計的関係を変化させる可能性がある。そのため、現場での継続的な検証が不可欠となる。

また、視覚的・文脈的な手がかりに依存するシステムは、プライバシーや公平性の問題も提起する。都市の映像で訓練されたモデルは、誰が、どのような条件で、どのカメラで記録されたかといった、データセットの偏りや死角を継承することが多い。特定の肌の色、服装の種類、体型に対する検知の弱さは、集団間での予測精度の差につながる可能性がある。したがって、エンジニアリングチームはデータセットの多様性、モデルの失敗モードに関する透明性、そして偏った行動を監査し緩和する手順を優先しなければならない。

マルチモーダルLLMから脳に触発されたアーキテクチャへ

この類似性は、文字通りというよりも概念的なものだ。現在のAIは、人間の意識や真の意図のメカニズムを再現しているわけではない。しかし、ネットワークがいかに情報をルーティングし、特殊なモジュールを形成するかという、神経組織の仕組みからインスピレーションを得ることは、混沌とした都市の街路において速度、堅牢性、適応性をより高いレベルで両立させるシステムの設計に役立つ。

導入前に必要なこと

OmniPredictは研究段階のプロトタイプであり、完成した自律走行スタックではない。車両に導入する前には、長期的なフィールド試行、コーナーケース下での厳格な安全性検証、そして行動予測がどのように移動計画に影響を与えるべきかを示す統合テストが必要だ。また、システムが人間の行動を予測する際の許容可能な誤検知（偽陽性）および検知漏れ（偽陰性）の率について、規制当局やメーカーが基準を決定する必要がある。これらのトレードオフは、安全性に直結する。

最後に、このプロジェクトは応用AIにおける普遍的な真実を浮き彫りにしている。精選されたテストでの精度は必要条件ではあるが、十分条件ではない。現実世界のシステムは、監査可能で、公平で、分布の変化に対して堅牢でなければならず、不確実な状況下では緩やかに性能を低下させる必要がある。機械が人間の動きを「先読み」するという展望は、都市交通の安全性と流れにとって魅力的だが、車がその予測に基づいて不可逆的な決定を下す前に、解決すべき技術的、倫理的、法的な問いを孕んでいる。

Texas A&Mとそのパートナーによる研究は、認識、文脈、行動推論が自律システムの不可欠な要素となる近い将来を指し示している。その未来がより安全なものになるのは、新しい予測レイヤーを、保守的な安全設計、入念なテスト、そして透明性と説明責任に関する明確なルールと組み合わせた場合のみである。

出典

Computers & Electrical Engineering (research paper on OmniPredict)
Texas A&M University College of Engineering
Korea Advanced Institute of Science and Technology (KAIST)
Nature Machine Intelligence (research on neuromorphic networks)
McGill University / The Neuro (Montreal Neurological Institute-Hospital)

AIが歩行者の次の動きを予測

単なる検知ではなく、先読みするモデル

OmniPredictはいかにしてシーンを読み取るか

ベンチマーク、限界、そして現実との乖離

安全性、プライバシー、行動フィードバック

マルチモーダルLLMから脳に触発されたアーキテクチャへ

導入前に必要なこと

出典

Tags

Mattias Risberg

Readers Questions Answered

Have a question about this article?

Comments