Поиск искусственного общего интеллекта (AGI) зашел в тупик, так как традиционные методы оценки не успевают за стремительным развитием возможностей моделей. Чтобы решить эту проблему, группа исследователей, в которую вошли José Hernández-Orallo, Joshua B. Tenenbaum и Samuel J. Gershman, представила AI GameStore — масштабируемую платформу, которая тестирует машинный интеллект в условиях «Мультивселенной человеческих игр». Используя игры с таких платформ, как Steam и Apple App Store, эта открытая система обеспечивает более строгую и динамичную среду, чем статические бенчмарки, измеряя способность агента учиться и адаптироваться к разнообразному человеческому опыту.
Насыщение традиционных бенчмарков ИИ
Традиционные бенчмарки ИИ обычно оценивают лишь узкие способности и быстро достигают насыщения, так как разработчики оптимизируют модели под конкретные параметры тестов. Обычные системы оценки часто статичны, что позволяет моделям со временем «заучивать» данные или переобучаться под них. Это приводит к завышенным результатам, которые не отражают реальный общий интеллект. Подобный феномен создает ложное чувство прогресса: модели кажутся высокоэффективными в контролируемых условиях, но терпят неудачу при столкновении с новой сложностью реального мира.
Статичным средам не хватает открытости (open-endedness), необходимой для имитации непредсказуемой природы человеческой жизни. Когда бенчмарк остается неизменным годами, он перестает быть мерой способности к обобщению и становится мерой специализированной оптимизации. Исследовательская группа утверждает, что для демонстрации AGI машина должна показывать мастерство в средах, которых она никогда раньше не видела, что требует перехода от фиксированных наборов данных к обширной, постоянно развивающейся библиотеке интерактивных задач.
Что такое AI GameStore и как он работает?
AI GameStore — это масштабируемая открытая платформа для оценки искусственного общего интеллекта с помощью человеческих игр, то есть игр, созданных людьми для людей. Система использует большие языковые модели (LLM) с участием человека (human-in-the-loop) для синтеза новых репрезентативных игр, автоматически находя и адаптируя стандартизированные контейнеризированные варианты с популярных платформ, таких как Apple App Store и Steam.
Система работает путем идентификации различных игровых механик и их перевода в среды, с которыми могут взаимодействовать визуально-языковые модели (VLM). Используя подход «человек в контуре», исследователи гарантируют, что созданные игры сохраняют качественную суть человеческих развлечений, оставаясь при этом вычислительно доступными для ИИ-агентов. Этот процесс позволяет быстро генерировать репрезентативные человеческие игры, создавая испытательный полигон, широта которого ограничена лишь человеческим воображением.
Определение Мультивселенной человеческих игр
«Мультивселенная человеческих игр» представляет собой совокупность всех игр, созданных людьми для удовольствия людей, и служит показателем человеческого когнитивного разнообразия. В отличие от синтетических задач, созданных специально для обучения ИИ, эти игры строятся на человеческой интуиции, социальной логике и физическом здравом смысле. Это делает их уникальным и эффективным инструментом для измерения того, насколько хорошо ИИ может ориентироваться в мире, спроектированном для человеческого общего интеллекта.
В рамках проверки концепции исследователи отобрали 100 игр на основе топ-чартов Steam и Apple App Store. Эти игры не упрощались для ИИ; вместо этого они были стандартизированы в контейнеризированные среды для обеспечения воспроизводимости. Тестируя фронтирные VLM-модели на этих проектах, исследование позволяет напрямую сравнить производительность машин со «среднечеловеческим уровнем», выявляя области, где современные архитектуры не дотягивают до человеческого мышления.
Как AI GameStore соотносится с ARC-AGI в измерении интеллекта?
AI GameStore оценивает ИИ на обширной «Мультивселенной человеческих игр» из реальных платформ, предоставляя масштабируемые и разнообразные бенчмарки за пределами статических тестов. В отличие от него, ARC-AGI фокусируется на задачах абстрактного мышления, тогда как AI GameStore проверяет практические навыки, такие как обучение модели мира, память и планирование в динамичных игровых средах. Передовые модели набирают менее 10% от среднего человеческого результата в большинстве игр AI GameStore, что подчеркивает более глубокие пробелы, чем те, которые может выявить ARC-AGI.
Хотя ARC-AGI (Abstraction and Reasoning Corpus) высоко ценится за акцент на подвижном интеллекте, AI GameStore предлагает более широкий тест на «здравый смысл». Игры требуют большего, чем просто распознавание образов; они требуют:
- Долговременной памяти для отслеживания объектов и целей на разных уровнях.
- Пространственного мышления для навигации в 2D- и 3D-средах.
- Стратегического планирования для управления ресурсами и предсказания действий противника.
- Причинно-следственного вывода для понимания того, как взаимодействуют различные игровые механики.
Почему современные модели ИИ испытывают трудности в играх, требующих обучения модели мира?
Современные модели ИИ с трудом справляются с играми, требующими обучения модели мира, потому что им не хватает надежных способностей к выстраиванию внутренних репрезентаций физики игры, постоянства объектов и динамики среды. Оценки в играх AI GameStore показывают, что эти модели особенно пасуют перед задачами, требующими удержания памяти между эпизодами и многошагового планирования. Это выявляет ограничения в достижении человекоподобного AGI, так как результаты моделей значительно ниже человеческих показателей.
Исследователи обнаружили, что даже самые продвинутые визуально-языковые модели набирали менее 10% от среднего балла человека в большинстве из 100 тестовых игр. Основная проблема заключается в разрыве между предсказанием следующего токена и пониманием причинно-следственных связей. В игровой среде агент должен предсказывать, как его действия изменят состояние мира. Без сложной модели мира ИИ не может эффективно планировать свои действия, что приводит к «галлюцинирующим» стратегиям, которые рушатся, когда физика или логика игры не совпадают с внутренними статистическими корреляциями ИИ.
Будущее тестирования и масштабируемости AGI
Будущее оценки AGI заключается в переходе к реальности, где машины оцениваются по их способности обучаться любой задаче, а не только заранее определенным. AI GameStore предлагает дорожную карту для этого перехода, предоставляя платформу, которая может масштабироваться вместе с развитием ИИ. По мере совершенствования моделей «магазин» может пополняться более сложными играми, гарантируя, что бенчмарк останется «движущейся мишенью», которая сопротивляется насыщению и продолжает стимулировать инновации в машинном обучении.
Значение этого исследования выходит за рамки игровой индустрии. Используя человеческие развлечения в качестве научного мерила, команда выявила специфические архитектурные недостатки современных моделей, особенно в отношении физической интуиции и долгосрочного планирования. Устранение этих пробелов необходимо для разработки AGI, который сможет безопасно и эффективно работать в физическом мире. В дальнейшем команда планирует расширить AI GameStore, включив еще более разнообразные жанры, что еще сильнее раздвинет границы того, что машины способны понимать и достигать.
Comments
No comments yet. Be the first!