AI预测行人下一步行动

人工智能
AI Predicts Pedestrians’ Next Move
一种名为 OmniPredict 的新型多模态 AI 采用 GPT-4o 风格的大模型,能够实时预测行人动作,其在标准基准测试中的表现优于传统视觉系统。研究人员表示,这可能会改变自动驾驶汽车及其他机器针对人类行为进行路径规划的方式,但有关该系统具备“读心”能力的说法仍需严谨审视。

在城市街道上,最安全的瞬间决策往往是那些你根本不需要做出的决策。本周,德克萨斯 A&M 大学 (Texas A&M) 的研究人员与韩国合作伙伴公布了 OmniPredict。这是一种人工智能系统,它的功能不仅仅是发现道路上的人:它还试图推断那个人的下一步行动。OmniPredict 的研究成果发表在同行评审期刊 Computers & Electrical Engineering 上,它结合了场景图像、近距离视图、边界框、车辆遥测数据和简单的行为线索,实时预测行人可能采取的行动。

一个能够预见而不仅仅是探测的模型

传统的自动驾驶车辆技术栈将感知与规划分开:摄像头和激光雷达探测物体,随后下游模块决定如何刹车或转向。OmniPredict 取代了这种僵化的流程,采用多模态大语言模型 (MLLM) 架构,融合视觉和上下文输入,并产生关于人类行为的概率性预测——无论某人是准备横穿马路、在遮挡区域停留、看向车辆,还是执行其他动作。在实验室测试中,该团队报告称其在既定的行人行为基准测试中达到了约 67% 的预测准确率,与最近的最先进方法相比,性能提升了约 10 个百分点。

研究人员将这一进展描述为从反应式自动化向预见式自主性的转变。项目负责人指出:“城市是不可预测的。行人也可能不可预测。”他提到,如果汽车能够预见到行人可能踏入车道,就能更早、更平稳地进行规划,从而有可能减少险些发生事故的情况。其结果并不是一个能够洞察人类思维的神谕,而是一个统计引擎,它将姿势、头部方向、遮挡、车速等视觉线索转化为短期的运动预测。

OmniPredict 如何解读场景

在技术核心层面,OmniPredict 使用了 MLLM(这种架构越来越多地用于聊天和图像任务),并经过调整以解释视频帧和结构化的上下文信号。输入数据包括广角场景图像、单个行人的放大裁剪图、边界框坐标以及车辆速度等简单传感器数据。该模型共同处理这些多模态流,并将其映射到团队发现对驾驶环境有用的四个行为类别:过马路、遮挡、动作和注视。

有两个特性至关重要。首先,MLLM 的跨模态注意力机制使模型能够将远处的人体取向与局部手势联系起来——例如,某人在低头看手机的同时转动躯干——而无需定制的硬编码规则。其次,该系统表现出了泛化能力:研究人员在两个具有挑战性的行人行为公共数据集(JAAD 和 WiDEVIEW)上运行了 OmniPredict,而无需针对特定数据集进行定制训练,结果依然优于现有最先进技术。这种泛化能力是其核心优势,也是该团队将 OmniPredict 描述为位于原始感知之上的“推理”层的原因。

基准、局限性与现实差距

基准测试只说明了部分情况。报告中提到的 67% 的准确率以及比近期基准线 10% 的提升在学术比较中具有意义,但这并不自动等同于具备道路行驶的安全性。基准测试包含许多重复模式,其场景分布比真实的城市驾驶要窄;当系统离开实验室时,罕见事件、对抗性行为和异常天气往往会使模型的假设失效。

批评人士很快指出,“读取人类思维”的说法有夸大结果之嫌。该模型的预测源自于从过去数据中学到的统计关联:训练集中相似的视觉语境导致了相似的结果。这固然强大,但并不等同于能够触及人类的意图或内部心理状态。在实践中,行人受当地文化、街道设计和社会信号的影响;如果不考虑这些层面的 AI,可能会做出自信但错误的预测。

安全、隐私与行为反馈

如果车辆根据它对你行为的预期进行规划,人类的行为可能会随之改变——这一点有时被称为行为反馈循环。知道汽车会预判自己行为的人可能会承担更多风险,或者相反,变得更加警觉;这两种动态都会改变模型所依赖的统计关系。这使得持续的实地验证变得至关重要。

该系统对视觉和上下文线索的依赖也引发了隐私和公平性问题。在城市录像上训练的模型往往会继承其数据集的偏见和盲点:记录了谁、在什么条件下记录、以及使用了什么摄像头。对某些肤色、服装类型或体型的探测弱点,可能会转化为不同人群之间预测质量的差异。因此,工程团队必须优先考虑数据集的多样性、模型失效模式的透明度,以及审计和减轻偏见行为的程序。

从多模态 LLM 到类脑架构

这种类比更多是概念上的而非字面上的。目前的人工智能并不能复制人类意识或真实意图的机制。但从神经组织结构中汲取灵感——即网络如何路由信息并形成专门的模块——可以帮助工程师设计出在混乱的城市街道上更好平衡速度、鲁棒性和适应性的系统。

部署前需要完成的工作

OmniPredict 是一个研究原型,而非现成的自动驾驶方案。在部署到车辆之前,它需要长期的实地试验、针对边缘案例的严格安全验证,以及展示行为预测应如何影响运动规划的集成测试。监管机构和制造商还必须决定,当系统预测人类行为时,可接受的误报率和漏报率标准——这些权衡具有明确的安全含义。

最后,该项目强调了应用人工智能的一个反复出现的真理:在精心策划的测试中取得准确性是必要的,但并不充分。现实世界的系统必须是可审计的、公平的,并且对分布偏移具有鲁棒性;当出现不确定性时,它们必须能够优雅降级。机器“预见”人类运动的前景对于城市交通的安全和流畅极具吸引力,但它带来了技术、伦理和法律问题,在汽车根据这些预测做出不可逆转的决定之前,这些问题应当得到解决。

德克萨斯 A&M 大学及其合作伙伴的工作指向了一个不远的未来:感知、语境和行为推理将成为自动驾驶系统不可分割的组成部分。只有将新的预测层与保守的安全设计、严谨的测试以及透明和问责的明确规则相结合,那个未来才会更加安全。

Sources

  • Computers & Electrical Engineering (research paper on OmniPredict)
  • Texas A&M University College of Engineering
  • Korea Advanced Institute of Science and Technology (KAIST)
  • Nature Machine Intelligence (research on neuromorphic networks)
  • McGill University / The Neuro (Montreal Neurological Institute-Hospital)
Mattias Risberg

Mattias Risberg

Cologne-based science & technology reporter tracking semiconductors, space policy and data-driven investigations.

University of Cologne (Universität zu Köln) • Cologne, Germany

Readers

Readers Questions Answered

Q 什么是 OmniPredict,它有什么作用?
A OmniPredict 是一款多模态人工智能系统,它利用大语言模型架构将视觉输入与上下文信号相结合,实时预测行人可能的下一步动作。它接收广角场景图像、行人特写裁剪图、边界框坐标以及车辆遥测数据,并输出关于过马路、在遮挡区域停留或视线转移等行为的概率预测。
Q OmniPredict 如何对行人行为进行分类?
A OmniPredict 将其多模态输入映射到与驾驶相关的四个行为类别:过马路、遮挡、动作和注视。它利用跨模态注意力机制将远程身体姿态与局部手势联系起来,从而无需手工编码规则即可进行预测,并允许模型通过姿态、头部方向和上下文的组合来推断短期运动。
Q 它在基准测试中的表现如何,有哪些注意事项?
A 在实验室测试中,OmniPredict 在 JAAD 和 WiDEVIEW 基准测试中达到了约 67% 的预测准确率,比最近的基准模型高出约 10 个百分点。然而,基准测试的表现并不等同于道路安全;这些数据集的情景分布较窄,而现实世界的驾驶可能会出现罕见事件和对抗性条件,从而对模型构成挑战。研究人员强调,超越训练数据的泛化能力是该项研究的一个关键看点。
Q 在部署之前需要做什么,存在哪些担忧?
A 在部署之前,OmniPredict 仍是一个研究原型,需要进行长期的现场试验、在极端情况下的严格安全验证,以及展示预测如何影响运动规划的集成测试。此外,该研究还呼吁制定关于可接受的误报率和漏报率的标准,并对偏见、隐私以及潜在的行为反馈回路(即人们可能会因为预测系统而改变自己的行为方式)进行持续审计。
Q OmniPredict 会读心或获取内部心理状态吗?
A OmniPredict 试图读心吗?研究人员强调,该系统并不能获取内部意图或意识;它只是将视觉线索和上下文数据转化为基于以往数据学习到的短期运动统计预测。如果实际情况与训练模式不符,这些预测可能会显得很有信心,但其实是错误的。

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!