What is OmniPredict and what does it do?

OmniPredict is a multimodal AI system that uses a large language model architecture to fuse visual inputs with contextual signals and forecast a pedestrian's likely next move in real time. It accepts wide-angle scene images, close-up crops of pedestrians, bounding-box coordinates, and vehicle telemetry, and outputs probabilistic predictions about actions such as crossing, pausing in occluded areas, or shifting gaze.

How does OmniPredict classify pedestrian behavior?

OmniPredict maps its multimodal inputs to four behavior categories relevant for driving: crossing, occlusion, actions, and gaze. It uses cross-modal attention to link a distant body orientation with a local gesture, enabling predictions without hand-coded rules and allowing the model to infer short-term movement from the combination of pose, head direction, and context.

How well does it perform on benchmarks, and what are the caveats?

In lab tests, OmniPredict achieved about 67% prediction accuracy on JAAD and WiDEVIEW benchmarks, roughly 10 percentage points higher than recent baselines. Yet benchmark performance does not automatically translate to road safety; these datasets have narrower scenario distributions, and real-world driving can present rare events and adversarial conditions that challenge the model. The claim of generalisation beyond training data is highlighted by researchers as a key headline.

What needs to happen before deployment and what concerns exist?

Before deployment, OmniPredict remains a research prototype requiring long-term field trials, rigorous safety validation under corner cases, and integration tests showing how predictions influence motion planning. The work also calls for standards on acceptable false-positive and false-negative rates, plus ongoing auditing for bias, privacy, and the potential for a behavioural feedback loop where people change how they act around anticipatory systems.

Does OmniPredict read minds or access internal mental states?

Is OmniPredict attempting to read minds? The researchers emphasize that the system is not accessing internal intent or consciousness; it transforms visual cues and contextual data into statistical forecasts of near-term movement learned from past data, which can be confident yet incorrect if situations differ from training patterns.

OmniPredict 预测行人下一步动态

在城市街道上，最安全的瞬间决策往往是那些你根本不需要做出的决策。本周，德克萨斯 A&M 大学 (Texas A&M) 的研究人员与韩国合作伙伴公布了 OmniPredict。这是一种人工智能系统，它的功能不仅仅是发现道路上的人：它还试图推断那个人的下一步行动。OmniPredict 的研究成果发表在同行评审期刊 Computers & Electrical Engineering 上，它结合了场景图像、近距离视图、边界框、车辆遥测数据和简单的行为线索，实时预测行人可能采取的行动。

一个能够预见而不仅仅是探测的模型

传统的自动驾驶车辆技术栈将感知与规划分开：摄像头和激光雷达探测物体，随后下游模块决定如何刹车或转向。OmniPredict 取代了这种僵化的流程，采用多模态大语言模型 (MLLM) 架构，融合视觉和上下文输入，并产生关于人类行为的概率性预测——无论某人是准备横穿马路、在遮挡区域停留、看向车辆，还是执行其他动作。在实验室测试中，该团队报告称其在既定的行人行为基准测试中达到了约 67% 的预测准确率，与最近的最先进方法相比，性能提升了约 10 个百分点。

研究人员将这一进展描述为从反应式自动化向预见式自主性的转变。项目负责人指出：“城市是不可预测的。行人也可能不可预测。”他提到，如果汽车能够预见到行人可能踏入车道，就能更早、更平稳地进行规划，从而有可能减少险些发生事故的情况。其结果并不是一个能够洞察人类思维的神谕，而是一个统计引擎，它将姿势、头部方向、遮挡、车速等视觉线索转化为短期的运动预测。

OmniPredict 如何解读场景

在技术核心层面，OmniPredict 使用了 MLLM（这种架构越来越多地用于聊天和图像任务），并经过调整以解释视频帧和结构化的上下文信号。输入数据包括广角场景图像、单个行人的放大裁剪图、边界框坐标以及车辆速度等简单传感器数据。该模型共同处理这些多模态流，并将其映射到团队发现对驾驶环境有用的四个行为类别：过马路、遮挡、动作和注视。

有两个特性至关重要。首先，MLLM 的跨模态注意力机制使模型能够将远处的人体取向与局部手势联系起来——例如，某人在低头看手机的同时转动躯干——而无需定制的硬编码规则。其次，该系统表现出了泛化能力：研究人员在两个具有挑战性的行人行为公共数据集（JAAD 和 WiDEVIEW）上运行了 OmniPredict，而无需针对特定数据集进行定制训练，结果依然优于现有最先进技术。这种泛化能力是其核心优势，也是该团队将 OmniPredict 描述为位于原始感知之上的“推理”层的原因。

基准、局限性与现实差距

基准测试只说明了部分情况。报告中提到的 67% 的准确率以及比近期基准线 10% 的提升在学术比较中具有意义，但这并不自动等同于具备道路行驶的安全性。基准测试包含许多重复模式，其场景分布比真实的城市驾驶要窄；当系统离开实验室时，罕见事件、对抗性行为和异常天气往往会使模型的假设失效。

批评人士很快指出，“读取人类思维”的说法有夸大结果之嫌。该模型的预测源自于从过去数据中学到的统计关联：训练集中相似的视觉语境导致了相似的结果。这固然强大，但并不等同于能够触及人类的意图或内部心理状态。在实践中，行人受当地文化、街道设计和社会信号的影响；如果不考虑这些层面的 AI，可能会做出自信但错误的预测。

安全、隐私与行为反馈

如果车辆根据它对你行为的预期进行规划，人类的行为可能会随之改变——这一点有时被称为行为反馈循环。知道汽车会预判自己行为的人可能会承担更多风险，或者相反，变得更加警觉；这两种动态都会改变模型所依赖的统计关系。这使得持续的实地验证变得至关重要。

该系统对视觉和上下文线索的依赖也引发了隐私和公平性问题。在城市录像上训练的模型往往会继承其数据集的偏见和盲点：记录了谁、在什么条件下记录、以及使用了什么摄像头。对某些肤色、服装类型或体型的探测弱点，可能会转化为不同人群之间预测质量的差异。因此，工程团队必须优先考虑数据集的多样性、模型失效模式的透明度，以及审计和减轻偏见行为的程序。

从多模态 LLM 到类脑架构

这种类比更多是概念上的而非字面上的。目前的人工智能并不能复制人类意识或真实意图的机制。但从神经组织结构中汲取灵感——即网络如何路由信息并形成专门的模块——可以帮助工程师设计出在混乱的城市街道上更好平衡速度、鲁棒性和适应性的系统。

部署前需要完成的工作

OmniPredict 是一个研究原型，而非现成的自动驾驶方案。在部署到车辆之前，它需要长期的实地试验、针对边缘案例的严格安全验证，以及展示行为预测应如何影响运动规划的集成测试。监管机构和制造商还必须决定，当系统预测人类行为时，可接受的误报率和漏报率标准——这些权衡具有明确的安全含义。

最后，该项目强调了应用人工智能的一个反复出现的真理：在精心策划的测试中取得准确性是必要的，但并不充分。现实世界的系统必须是可审计的、公平的，并且对分布偏移具有鲁棒性；当出现不确定性时，它们必须能够优雅降级。机器“预见”人类运动的前景对于城市交通的安全和流畅极具吸引力，但它带来了技术、伦理和法律问题，在汽车根据这些预测做出不可逆转的决定之前，这些问题应当得到解决。

德克萨斯 A&M 大学及其合作伙伴的工作指向了一个不远的未来：感知、语境和行为推理将成为自动驾驶系统不可分割的组成部分。只有将新的预测层与保守的安全设计、严谨的测试以及透明和问责的明确规则相结合，那个未来才会更加安全。

Sources

Computers & Electrical Engineering (research paper on OmniPredict)
Texas A&M University College of Engineering
Korea Advanced Institute of Science and Technology (KAIST)
Nature Machine Intelligence (research on neuromorphic networks)
McGill University / The Neuro (Montreal Neurological Institute-Hospital)

AI预测行人下一步行动

一个能够预见而不仅仅是探测的模型

OmniPredict 如何解读场景

基准、局限性与现实差距

安全、隐私与行为反馈

从多模态 LLM 到类脑架构

部署前需要完成的工作

Sources

Tags

Mattias Risberg

Readers Questions Answered

Have a question about this article?

Comments