ИИ предсказывает следующий шаг пешеходов

AI Predicts Pedestrians’ Next Move
Новая мультимодальная система ИИ под названием OmniPredict использует большую модель в стиле GPT-4o для прогнозирования действий пешеходов в реальном времени, превосходя традиционные системы машинного зрения в стандартных тестах. Исследователи полагают, что это может изменить принципы взаимодействия беспилотных автомобилей и других машин с людьми, однако утверждение о том, что система «читает мысли», требует тщательной проверки.

На городских улицах самое безопасное решение, принимаемое за доли секунды, — это зачастую то, которое вам так и не пришлось принимать. На этой неделе исследователи из Texas A&M и их коллеги из Кореи представили OmniPredict — систему искусственного интеллекта, которая делает больше, чем просто фиксирует человека на дороге: она пытается предугадать, что этот человек сделает дальше. Описанная в рецензируемой статье в журнале Computers & Electrical Engineering, OmniPredict объединяет изображения сцены, виды крупным планом, ограничивающие рамки, телеметрию автомобиля и простые поведенческие сигналы для прогнозирования вероятных действий пешехода в режиме реального времени.

Модель, которая предвосхищает, а не просто обнаруживает

Традиционные технологические стеки автономных транспортных средств разделяют восприятие и планирование: камеры и лидары обнаруживают объекты, а затем последующие модули решают, как тормозить или маневрировать. OmniPredict заменяет этот жесткий конвейер архитектурой мультимодальной большой языковой модели (MLLM), которая объединяет визуальные и контекстуальные входные данные и выдает вероятностный прогноз поведения человека — пересечет ли кто-то дорогу, остановится ли в зоне ограниченной видимости, взглянет ли на автомобиль или совершит другое действие. В лабораторных тестах команда зафиксировала точность прогнозирования около 67% на установленных бенчмарках поведения пешеходов, что на десять процентных пунктов выше показателей последних современных методов (state-of-the-art).

Исследователи характеризуют это достижение как переход от реактивной автоматизации к упреждающей автономности. «Города непредсказуемы. Пешеходы могут быть непредсказуемыми», — отметил руководитель проекта, добавив, что автомобиль, который предвидит вероятный шаг на дорогу, может спланировать действия раньше и плавнее, потенциально сокращая количество опасных сближений. Результатом является не оракул, читающий мысли, а статистический движок, который преобразует визуальные подсказки — позу, направление головы, перекрытия обзора, скорость автомобиля — в краткосрочный прогноз движения.

Как OmniPredict анализирует сцену

На техническом уровне OmniPredict использует MLLM — архитектуру, которая все чаще применяется для задач чата и обработки изображений, — адаптированную для интерпретации видеокадров и структурированных контекстных сигналов. Входные данные включают широкоугольное изображение сцены, увеличенные фрагменты с отдельными пешеходами, координаты ограничивающих рамок и простые данные датчиков, такие как скорость автомобиля. Модель обрабатывает эти мультимодальные потоки вместе и соотносит их с четырьмя категориями поведения, которые команда сочла полезными для условий вождения: переход дороги, нахождение в зоне ограниченной видимости, действия и взгляд.

Важны два свойства. Во-первых, кросс-модальное внимание MLLM позволяет модели связать ориентацию тела на расстоянии с локальным жестом — например, когда кто-то поворачивает корпус, глядя вниз в телефон — без использования прописанных вручную правил. Во-вторых, система обладает способностью к обобщению: исследователи запустили OmniPredict на двух сложных публичных наборах данных о поведении пешеходов (JAAD и WiDEVIEW) без специального обучения под конкретный датасет и все равно получили результаты, превосходящие существующие аналоги. Эта обобщающая способность является ключевым заявлением, и именно поэтому группа описывает OmniPredict как уровень «рассуждения», расположенный над «сырым» восприятием.

Бенчмарки, ограничения и разрыв с реальностью

Бенчмарки отражают лишь часть истории. Заявленная точность в 67% и улучшение на 10% по сравнению с недавними базовыми показателями значимы для академических сравнений, но они не переносятся автоматически на безопасность в реальных дорожных условиях. Бенчмарки содержат много повторяющихся паттернов и более узкий спектр сценариев, чем живое городское движение; редкие события, нетипичное поведение и необычные погодные условия часто сводят на нет предположения моделей, когда системы покидают лабораторию.

Критики поспешили заметить, что формулировки о «чтении человеческих мыслей» рискуют преувеличить результат. Предсказания модели основаны на статистических ассоциациях, извлеченных из прошлых данных: похожие визуальные контексты в обучающей выборке приводили к похожим исходам. Это мощный инструмент, но он не тождественен доступу к намерениям человека или его внутренним психическим состояниям. На практике на пешеходов влияют местная культура, дизайн улиц и социальные сигналы; ИИ, который не учитывает эти уровни, может делать уверенные, но ошибочные прогнозы.

Безопасность, конфиденциальность и поведенческая обратная связь

Если автомобиль строит планы на основе того, что он ожидает от вас, поведение человека может измениться в ответ — этот момент иногда называют петлей поведенческой обратной связи. Люди, знающие, что машины предугадывают их действия, могут начать больше рисковать или, наоборот, стать более осторожными; любая из этих динамик может изменить статистические зависимости, на которые опирается модель. Это делает непрерывную валидацию в полевых условиях необходимой.

Опора системы на визуальные и контекстуальные подсказки также поднимает вопросы конфиденциальности и справедливости. Модели, обученные на городских записях, часто наследуют предвзятость и слепые зоны своих наборов данных: кто был записан, при каких условиях и какими камерами. Недостатки в обнаружении определенных оттенков кожи, типов одежды или форм тела могут привести к разному качеству прогнозирования для различных групп населения. Поэтому инженерные группы должны уделять приоритетное внимание разнообразию наборов данных, прозрачности режимов отказа моделей и процедурам аудита и смягчения предвзятого поведения.

От мультимодальных LLM к архитектурам, вдохновленным мозгом

Параллель здесь скорее концептуальная, чем буквальная. Современный ИИ не воспроизводит человеческое сознание или механизмы истинного намерения. Однако заимствование идей из нейронной организации — того, как сети направляют информацию и формируют специализированные модули — может помочь инженерам проектировать системы, которые лучше балансируют между скоростью, надежностью и адаптивностью на хаотичных городских улицах.

Что должно произойти перед внедрением

OmniPredict — это исследовательский прототип, а не готовый стек автономности. Перед внедрением в транспортные средства системе требуются длительные полевые испытания, строгая проверка безопасности в пограничных случаях и интеграционные тесты, показывающие, как поведенческие прогнозы должны влиять на планирование движения. Регуляторам и производителям также придется определить стандарты допустимых уровней ложноположительных и ложноотрицательных результатов при прогнозировании действий человека — это компромиссы, которые напрямую влияют на безопасность.

Наконец, проект подчеркивает неизменную истину прикладного ИИ: точность в специально отобранных тестах необходима, но недостаточна. Системы реального мира должны быть проверяемыми, справедливыми и устойчивыми к изменениям в распределении данных; они должны корректно снижать функциональность при неопределенности. Перспектива появления машин, которые «предвосхищают» движение человека, привлекательна для безопасности и транспортных потоков в городах, но она несет в себе технические, этические и юридические вопросы, которые должны быть решены до того, как автомобили начнут принимать необратимые решения на основе этих прогнозов.

Работа Texas A&M и партнеров указывает на недалекое будущее, в котором восприятие, контекст и поведенческие рассуждения станут неотъемлемыми компонентами автономных систем. Это будущее станет безопаснее только в том случае, если новый прогностический уровень будет сочетаться с консервативным проектированием безопасности, тщательным тестированием и четкими правилами прозрачности и подотчетности.

Источники

  • Computers & Electrical Engineering (научная статья об OmniPredict)
  • Texas A&M University College of Engineering
  • Korea Advanced Institute of Science and Technology (KAIST)
  • Nature Machine Intelligence (исследования в области нейроморфных сетей)
  • McGill University / The Neuro (Montreal Neurological Institute-Hospital)
Mattias Risberg

Mattias Risberg

Cologne-based science & technology reporter tracking semiconductors, space policy and data-driven investigations.

University of Cologne (Universität zu Köln) • Cologne, Germany

Readers

Readers Questions Answered

Q Что такое OmniPredict и каковы его функции?
A OmniPredict — это мультимодальная система искусственного интеллекта, использующая архитектуру больших языковых моделей для объединения визуальных данных с контекстными сигналами и прогнозирования вероятного следующего шага пешехода в режиме реального времени. Она принимает широкоугольные изображения сцены, крупные планы пешеходов, координаты ограничивающих рамок и телеметрию транспортного средства, а на выходе выдает вероятностные прогнозы таких действий, как переход дороги, остановка в слепых зонах или перевод взгляда.
Q Как OmniPredict классифицирует поведение пешеходов?
A OmniPredict сопоставляет свои мультимодальные входные данные с четырьмя категориями поведения, актуальными для вождения: переход дороги, перекрытие (окклюзия), действия и направление взгляда. Система использует механизм кросс-модального внимания, чтобы связать общую ориентацию тела с локальным жестом, что позволяет делать прогнозы без жестко заданных правил и дает модели возможность делать выводы о кратковременном движении на основе сочетания позы, направления головы и контекста.
Q Насколько хорошо система показывает себя в бенчмарках и каковы нюансы?
A В лабораторных тестах OmniPredict достигла точности прогнозирования около 67% на бенчмарках JAAD и WiDEVIEW, что примерно на 10 процентных пунктов выше недавних базовых показателей. Однако результаты бенчмарков не гарантируют автоматического повышения безопасности на дорогах; эти наборы данных имеют ограниченный набор сценариев, а реальное вождение может сопровождаться редкими событиями и неблагоприятными условиями, которые станут вызовом для модели. Исследователи выделяют способность к обобщению за пределы обучающих данных как ключевое достижение.
Q Что должно произойти перед внедрением и какие существуют опасения?
A До внедрения OmniPredict остается исследовательским прототипом, требующим долгосрочных полевых испытаний, тщательной проверки безопасности в критических случаях и интеграционных тестов, показывающих, как прогнозы влияют на планирование движения. Работа также требует установления стандартов допустимых уровней ложноположительных и ложноотрицательных результатов, а также постоянного аудита на предмет предвзятости, конфиденциальности и возможности возникновения петли поведенческой обратной связи, когда люди меняют свое поведение в присутствии прогностических систем.
Q Читает ли OmniPredict мысли или получает ли доступ к внутренним ментальным состояниям?
A Пытается ли OmniPredict читать мысли? Исследователи подчеркивают, что система не получает доступа к внутренним намерениям или сознанию; она преобразует визуальные подсказки и контекстные данные в статистические прогнозы краткосрочного движения, сформированные на основе прошлых данных. Эти прогнозы могут быть уверенными, но при этом ошибочными, если ситуация отличается от шаблонов, на которых обучалась модель.

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!