Единое зрение: как OpenVision 3 сокращает разрыв между распознаванием и генерацией ИИ
На протяжении многих лет область искусственного интеллекта определялась фундаментальным разделением в том, как машины обрабатывают визуальную информацию. Чтобы описать изображение, модели требуется дискриминативная архитектура, ориентированная на высокоуровневую семантику; чтобы создать изображение, требуется генеративная архитектура, ориентированная на низкоуровневое распределение пикселей. Этот двухпутный подход вынуждал разработчиков поддерживать отдельные, зачастую избыточные нейронные конвейеры, что создавало значительные вычислительные затраты. Однако команда исследователей из UC Santa Cruz, Johns Hopkins University, NVIDIA и других ведущих институтов представила OpenVision 3 — унифицированную архитектуру энкодера, которая мастерски справляется как с визуальным пониманием, так и с синтезом изображений в рамках единого общего латентного пространства. Этот прорыв доказывает, что «универсальное око» для мультимодальных систем не только возможно, но и более эффективно, чем используемые сейчас фрагментированные модели.
Разветвление искусственного зрения
Исторический разрыв между пониманием и генерацией в компьютерном зрении обусловлен различными целями каждой задачи. Модели понимания, такие как CLIP от OpenAI, обучаются сопоставлять изображения с текстом, отсекая «ненужные» детали на уровне пикселей, чтобы сосредоточиться на абстрактных концепциях, таких как «собака» или «закат». Напротив, генеративные модели, подобные тем, что лежат в основе Stable Diffusion, должны уделять пристальное внимание именно этим деталям, чтобы точно реконструировать текстуры и освещение. В поисках унифицированных мультимодальных моделей (UMMs) исследователи ранее полагались на системы с «двумя токенизаторами», такие как UniFluid или BAGEL, которые кодируют одно и то же изображение дважды для создания двух различных наборов токенов. Хотя такие системы функциональны, эта избыточность усложняет архитектуру и ограничивает синергию между тем, как модель воспринимает мир и как она его воображает.
По словам исследовательской группы, в которую вошли Letian Zhang и Sucheng Ren, разработка OpenVision 3 опирается на «гипотезу платоновских представлений» (Platonic Representation Hypothesis). Эта теория постулирует, что различные модальности данных отражают общую базовую реальность, и изучение унифицированного представления дает взаимные преимущества для различных задач. Отказавшись от ошибок дискретизации, характерных для старых унифицированных токенизаторов, таких как VQ-GAN (которые полагаются на жесткие «кодовые книги» признаков), OpenVision 3 использует непрерывное латентное пространство, которое сохраняет богатство исходного изображения, при этом улавливая его семантическое значение.
Архитектура OpenVision 3: простой, но мощный сдвиг
Архитектура OpenVision 3 элегантно проста. Процесс начинается с пропуска изображения через вариационный автоэнкодер (VAE) для сжатия его в латентные представления. Затем эти латентные данные подаются в энкодер Vision Transformer (ViT). Блестящее решение заключается в том, что происходит с выходными данными этого ViT-энкодера: они одновременно направляются в две взаимодополняющие ветви обучения. Первая — это ветвь генерации, где декодер ViT-VAE пытается реконструировать исходное изображение из токенов энкодера. Это заставляет энкодер сохранять гранулярную, низкоуровневую визуальную информацию, необходимую для высокоточного синтеза.
Вторая ветвь посвящена пониманию. Здесь то же самое представление оптимизируется с помощью контрастивного обучения и задач по описанию изображений. Предсказывая текстовые токены авторегрессионно или сопоставляя признаки изображения с текстовыми описаниями, модель изучает высокоуровневые концепции, присутствующие в кадре. Эта двухпутная стратегия гарантирует, что результирующие унифицированные токены являются «многоязычными», способными говорить как на языке пикселей, так и на языке прозы. Исследователи отмечают, что такая конструкция позволяет избежать распространенных ловушек предыдущих унифицированных моделей, которые часто приносили качество генерации в жертву пониманию или наоборот.
Синергия в латентном пространстве
Одним из самых поразительных открытий в работе OpenVision 3 стали доказательства «нетривиальной синергии» между двумя сигналами обучения. Традиционно считалось, что добавление задачи реконструкции может размыть семантическую направленность энкодера. Однако Zhang, Zheng и Xie обнаружили обратное: оптимизация только функции потерь понимания фактически улучшила способность модели реконструировать изображения, а оптимизация реконструкции пошла на пользу семантическому выравниванию. Это говорит о том, что «понимание» того, чем является объект, помогает модели «рисовать» его более точно, в то время как «рисование» объекта помогает модели понять его определяющие характеристики.
Чтобы подтвердить эффективность этой унифицированной конструкции, исследователи провели обширные оценки с «замороженным» энкодером — это означает, что выученным представлениям не позволяли адаптироваться под конкретные задачи. Это строгий тест на внутреннее качество представления. При интеграции в LLaVA-1.5 — популярную модель для мультимодального диалога — унифицированные токены OpenVision 3 оказались столь же эффективными, как и специализированные семантические токены, созданные CLIP. Это указывает на то, что включение генеративных данных не «засорило» семантическое пространство, а скорее обогатило его.
Производительность и бенчмарки
Эмпирические результаты OpenVision 3 впечатляют, особенно в сравнении с отраслевыми стандартами, такими как CLIP-L/14 от OpenAI. В бенчмарках на мультимодальное понимание OpenVision 3 набрала 62,4 балла в SeedBench и 83,7 в POPE, немного превзойдя стандартный энкодер CLIP (62,2 и 82,9 соответственно). Эти показатели критически важны для оценки способности ИИ рассуждать о пространственных отношениях и идентифицировать объекты, не поддаваясь «галлюцинациям».
Преимущества OpenVision 3 стали еще более очевидными в генеративных задачах. При тестировании в рамках архитектуры RAE (Reconstructive Auto-Encoder) на наборе данных ImageNet модель достигла показателя генеративного расстояния Фреше — Инцепции (gFID) 1,89, существенно опередив результат 2,54 gFID, зафиксированный для стандартного энкодера на базе CLIP. Более того, по качеству реконструкции (rFID) OpenVision 3 превзошла существующие унифицированные токенизаторы, набрав 0,22 против 0,36 у ближайших конкурентов. Эти цифры представляют собой значительный скачок в эффективности, так как одна модель теперь может работать на уровне state-of-the-art в двух ранее разделенных областях.
Сравнительные показатели производительности:
- SeedBench (Понимание): OpenVision 3 (62,4) против CLIP-L/14 (62,2)
- POPE (Согласованность объектов): OpenVision 3 (83,7) против CLIP-L/14 (82,9)
- ImageNet gFID (Генерация): OpenVision 3 (1,89) против CLIP-based (2,54)
- ImageNet rFID (Реконструкция): OpenVision 3 (0,22) против предыдущих унифицированных моделей (0,36)
Путь к AGI: является ли унифицированное моделирование ключом?
Успех OpenVision 3 имеет глубокие последствия для стремления к созданию общего искусственного интеллекта (AGI). Биологические системы зрения у людей не используют отдельные энкодеры для распознавания и мысленных образов; та же зрительная кора, которая воспринимает дерево, в значительной степени отвечает и за его воображение. Имитируя эту биологическую эффективность, OpenVision 3 приближает ИИ к целостной форме интеллекта, где восприятие и созидание — две стороны одной медали. Такая унификация, вероятно, необходима для будущих ИИ-агентов общего назначения, которые должны воспринимать сложную среду, а затем генерировать планы или визуальные симуляции потенциальных действий в этой среде.
Помимо производительности, важным практическим преимуществом является снижение требований к памяти и вычислительной мощности. Используя один энкодер вместо двух, разработчики могут значительно уменьшить размер мультимодальных моделей, что упрощает их развертывание на периферийных устройствах или в робототехнике реального времени. Исследовательская группа надеется, что OpenVision 3 «подстегнет будущие исследования в области унифицированного моделирования», уводя индустрию от лоскутных моделей-«Франкенштейнов» прошлого к более элегантным и интегрированным архитектурам.
Что ждет унифицированное зрение в будущем
Заглядывая вперед, исследователи из UC Santa Cruz, JHU и NVIDIA предполагают, что следующий рубеж заключается в масштабировании этого унифицированного подхода на еще большие наборы данных и более разнообразные модальности, такие как видео и 3D-среды. Хотя OpenVision 3 освоила баланс между 2D-пониманием и генерацией, интеграция временной согласованности для видео остается сложной задачей. Кроме того, изучение того, как эти унифицированные представления могут быть использованы для «обучения в контексте» (in-context learning) — когда модель осваивает новую задачу всего на нескольких примерах — может открыть новые уровни адаптивности ИИ-агентов.
Выпуск семейства энкодеров OpenVision 3 знаменует собой поворотный момент в компьютерном зрении. Он доказывает, что компромисс между «видением» и «созиданием» — это ложная дихотомия. По мере эволюции ИИ, успеха, скорее всего, добьются те модели, которые, подобно OpenVision 3, найдут точки соприкосновения между пониманием мира таким, какой он есть, и представлением мира таким, каким он мог бы быть.
Comments
No comments yet. Be the first!