На городских улицах самое безопасное решение, принимаемое за доли секунды, — это зачастую то, которое вам так и не пришлось принимать. На этой неделе исследователи из Texas A&M и их коллеги из Кореи представили OmniPredict — систему искусственного интеллекта, которая делает больше, чем просто фиксирует человека на дороге: она пытается предугадать, что этот человек сделает дальше. Описанная в рецензируемой статье в журнале Computers & Electrical Engineering, OmniPredict объединяет изображения сцены, виды крупным планом, ограничивающие рамки, телеметрию автомобиля и простые поведенческие сигналы для прогнозирования вероятных действий пешехода в режиме реального времени.
Модель, которая предвосхищает, а не просто обнаруживает
Традиционные технологические стеки автономных транспортных средств разделяют восприятие и планирование: камеры и лидары обнаруживают объекты, а затем последующие модули решают, как тормозить или маневрировать. OmniPredict заменяет этот жесткий конвейер архитектурой мультимодальной большой языковой модели (MLLM), которая объединяет визуальные и контекстуальные входные данные и выдает вероятностный прогноз поведения человека — пересечет ли кто-то дорогу, остановится ли в зоне ограниченной видимости, взглянет ли на автомобиль или совершит другое действие. В лабораторных тестах команда зафиксировала точность прогнозирования около 67% на установленных бенчмарках поведения пешеходов, что на десять процентных пунктов выше показателей последних современных методов (state-of-the-art).
Исследователи характеризуют это достижение как переход от реактивной автоматизации к упреждающей автономности. «Города непредсказуемы. Пешеходы могут быть непредсказуемыми», — отметил руководитель проекта, добавив, что автомобиль, который предвидит вероятный шаг на дорогу, может спланировать действия раньше и плавнее, потенциально сокращая количество опасных сближений. Результатом является не оракул, читающий мысли, а статистический движок, который преобразует визуальные подсказки — позу, направление головы, перекрытия обзора, скорость автомобиля — в краткосрочный прогноз движения.
Как OmniPredict анализирует сцену
На техническом уровне OmniPredict использует MLLM — архитектуру, которая все чаще применяется для задач чата и обработки изображений, — адаптированную для интерпретации видеокадров и структурированных контекстных сигналов. Входные данные включают широкоугольное изображение сцены, увеличенные фрагменты с отдельными пешеходами, координаты ограничивающих рамок и простые данные датчиков, такие как скорость автомобиля. Модель обрабатывает эти мультимодальные потоки вместе и соотносит их с четырьмя категориями поведения, которые команда сочла полезными для условий вождения: переход дороги, нахождение в зоне ограниченной видимости, действия и взгляд.
Важны два свойства. Во-первых, кросс-модальное внимание MLLM позволяет модели связать ориентацию тела на расстоянии с локальным жестом — например, когда кто-то поворачивает корпус, глядя вниз в телефон — без использования прописанных вручную правил. Во-вторых, система обладает способностью к обобщению: исследователи запустили OmniPredict на двух сложных публичных наборах данных о поведении пешеходов (JAAD и WiDEVIEW) без специального обучения под конкретный датасет и все равно получили результаты, превосходящие существующие аналоги. Эта обобщающая способность является ключевым заявлением, и именно поэтому группа описывает OmniPredict как уровень «рассуждения», расположенный над «сырым» восприятием.
Бенчмарки, ограничения и разрыв с реальностью
Бенчмарки отражают лишь часть истории. Заявленная точность в 67% и улучшение на 10% по сравнению с недавними базовыми показателями значимы для академических сравнений, но они не переносятся автоматически на безопасность в реальных дорожных условиях. Бенчмарки содержат много повторяющихся паттернов и более узкий спектр сценариев, чем живое городское движение; редкие события, нетипичное поведение и необычные погодные условия часто сводят на нет предположения моделей, когда системы покидают лабораторию.
Критики поспешили заметить, что формулировки о «чтении человеческих мыслей» рискуют преувеличить результат. Предсказания модели основаны на статистических ассоциациях, извлеченных из прошлых данных: похожие визуальные контексты в обучающей выборке приводили к похожим исходам. Это мощный инструмент, но он не тождественен доступу к намерениям человека или его внутренним психическим состояниям. На практике на пешеходов влияют местная культура, дизайн улиц и социальные сигналы; ИИ, который не учитывает эти уровни, может делать уверенные, но ошибочные прогнозы.
Безопасность, конфиденциальность и поведенческая обратная связь
Если автомобиль строит планы на основе того, что он ожидает от вас, поведение человека может измениться в ответ — этот момент иногда называют петлей поведенческой обратной связи. Люди, знающие, что машины предугадывают их действия, могут начать больше рисковать или, наоборот, стать более осторожными; любая из этих динамик может изменить статистические зависимости, на которые опирается модель. Это делает непрерывную валидацию в полевых условиях необходимой.
Опора системы на визуальные и контекстуальные подсказки также поднимает вопросы конфиденциальности и справедливости. Модели, обученные на городских записях, часто наследуют предвзятость и слепые зоны своих наборов данных: кто был записан, при каких условиях и какими камерами. Недостатки в обнаружении определенных оттенков кожи, типов одежды или форм тела могут привести к разному качеству прогнозирования для различных групп населения. Поэтому инженерные группы должны уделять приоритетное внимание разнообразию наборов данных, прозрачности режимов отказа моделей и процедурам аудита и смягчения предвзятого поведения.
От мультимодальных LLM к архитектурам, вдохновленным мозгом
Параллель здесь скорее концептуальная, чем буквальная. Современный ИИ не воспроизводит человеческое сознание или механизмы истинного намерения. Однако заимствование идей из нейронной организации — того, как сети направляют информацию и формируют специализированные модули — может помочь инженерам проектировать системы, которые лучше балансируют между скоростью, надежностью и адаптивностью на хаотичных городских улицах.
Что должно произойти перед внедрением
OmniPredict — это исследовательский прототип, а не готовый стек автономности. Перед внедрением в транспортные средства системе требуются длительные полевые испытания, строгая проверка безопасности в пограничных случаях и интеграционные тесты, показывающие, как поведенческие прогнозы должны влиять на планирование движения. Регуляторам и производителям также придется определить стандарты допустимых уровней ложноположительных и ложноотрицательных результатов при прогнозировании действий человека — это компромиссы, которые напрямую влияют на безопасность.
Наконец, проект подчеркивает неизменную истину прикладного ИИ: точность в специально отобранных тестах необходима, но недостаточна. Системы реального мира должны быть проверяемыми, справедливыми и устойчивыми к изменениям в распределении данных; они должны корректно снижать функциональность при неопределенности. Перспектива появления машин, которые «предвосхищают» движение человека, привлекательна для безопасности и транспортных потоков в городах, но она несет в себе технические, этические и юридические вопросы, которые должны быть решены до того, как автомобили начнут принимать необратимые решения на основе этих прогнозов.
Работа Texas A&M и партнеров указывает на недалекое будущее, в котором восприятие, контекст и поведенческие рассуждения станут неотъемлемыми компонентами автономных систем. Это будущее станет безопаснее только в том случае, если новый прогностический уровень будет сочетаться с консервативным проектированием безопасности, тщательным тестированием и четкими правилами прозрачности и подотчетности.
Источники
- Computers & Electrical Engineering (научная статья об OmniPredict)
- Texas A&M University College of Engineering
- Korea Advanced Institute of Science and Technology (KAIST)
- Nature Machine Intelligence (исследования в области нейроморфных сетей)
- McGill University / The Neuro (Montreal Neurological Institute-Hospital)
Comments
No comments yet. Be the first!