В стремительно развивающемся ландшафте искусственного интеллекта долгое время доминировала мантра «чем больше, тем лучше», подпитываемая успехом массивных трансформерных моделей, таких как GPT и DINO. Однако в такой критически важной области, как медицинская визуализация, новый прорыв свидетельствует о том, что стратегическая эффективность и экспертные знания в предметной области могут быть ценнее, чем просто вычислительный масштаб. Исследовательская группа под руководством Pedro M. Gordaliza, Jaume Banus и Benoît Gérin продемонстрировала, что компактные специализированные модели могут не только конкурировать с более крупными аналогами, но и значительно превосходить их в сложной задаче анализа 3D-МРТ головного мозга.
Расцвет базовых моделей МРТ головного мозга
Базовые модели (Foundation models, FM) представляют собой смену парадигмы в области искусственного интеллекта. В отличие от традиционных моделей, обучаемых для одной конкретной задачи, базовые модели предварительно обучаются на огромных неразмеченных наборах данных с использованием самообучения (SSL), что позволяет тонко настраивать их для широкого спектра прикладных задач с минимальным количеством размеченных данных. Хотя эти модели произвели революцию в обработке естественного языка и 2D-компьютерном зрении, их применение в 3D-медицинской визуализации — в частности, в нейровизуализации — оставалось сложнейшей задачей. Анатомическая сложность мозга в сочетании с высокой размерностью волюметрических данных МРТ и вариативностью протоколов сканирования создает уникальное «узкое место» для стандартных архитектур ИИ.
Чтобы преодолеть эти барьеры, сообщество медицинской визуализации организовало два знаковых конкурса на конференции MICCAI 2025: Self-Supervised Learning for 3D Medical Imaging Challenge (SSL3D) и Foundation Model Challenge for Brain MRI (FOMO25). Эти состязания стали первыми строгими стандартизированными тестами для оценки того, насколько хорошо базовые модели могут обобщать данные из разнородных клинических выборок. Только в рамках конкурса SSL3D был собран беспрецедентный набор данных, включающий более 114 000 3D-объемов от 34 191 субъекта из 800 различных датасетов. Именно на этой конкурентной арене исследовательская группа, представляющая такие институты, как Lausanne University Hospital (CHUV), University of Lausanne (UNIL) и CIBM Center for Biomedical Imaging, заняла первые места, используя удивительно лаконичный подход.
Малый ИИ против массивных трансформеров
Одним из самых поразительных выводов, сделанных на основе успеха исследователей, является сохраняющееся доминирование сверточных нейронных сетей (CNN), в частности архитектуры U-Net, над модными сегодня моделями на базе трансформеров. В конкурсах FOMO25 и SSL3D ни одна из заявок на основе трансформеров не смогла сравниться по производительности с победившим методом CNN. Этот разрыв подчеркивает критическое техническое ограничение: трансформеры, будучи мощными в 2D-задачах или работе с текстом, страдают от квадратичной сложности при обработке огромного количества токенов, возникающих при 3D-волюметрической токенизации. Это создает вычислительное «узкое место», ограничивающее пространственное разрешение и контекст, которыми эти модели могут эффективно управлять.
Модель исследовательской группы достигла высочайших показателей, будучи примерно в 10 раз меньше конкурирующих решений на базе трансформеров, таких как ViT-L DINOv2 3D. В то время как более крупные модели часто могут похвастаться сотнями миллионов параметров, победившая архитектура на базе CNN использовала всего 20 миллионов. Несмотря на столь малый размер, команда сообщила о среднем коэффициенте Дайса (Dice score) на 2,5% выше в задачах сегментации и об увеличении точности на 8% в задачах классификации по сравнению с соперниками на базе трансформеров. Это говорит о том, что «горький урок» ИИ — идея о том, что общие методы в конечном итоге побеждают за счет масштаба — возможно, еще не применим к сложному и ограниченному в ресурсах миру 3D-медицинской визуализации.
Сила профильных знаний
Секрет успеха команды заключался в интеграции анатомических априорных знаний и опыта в области нейровизуализации в архитектуру модели. Вместо того чтобы рассматривать 3D-объемы как обычные наборы данных, Pedro M. Gordaliza, Jaume Banus и Benoît Gérin спроектировали свою систему так, чтобы отделять инвариантные для субъекта анатомические структуры от специфических для контраста патологических признаков. Заставив модель распознавать, что определенные анатомические черты остаются неизменными при различных контрастах МРТ (например, T1-взвешенных или T2-взвешенных изображениях) и в разные моменты времени, они обеспечили нейронную сеть «индуктивным смещением», которое предотвращает изучение ложных корреляций или использование вычислительных «лазеек».
Для конкурса SSL3D исследователи разделили выученные представления на два отдельных компонента: один был ограничен необходимостью соответствовать анатомической сегментации на всех изображениях одного субъекта, а другой оптимизирован для обнаружения патологий. В треке FOMO25 они реализовали целевую функцию кросс-контрастной реконструкции, меняя местами представления между различными сканами одного и того же субъекта во время предварительного обучения. Это узкоспециализированное руководство позволило модели сосредоточиться на том, что действительно важно в клиническом контексте — на лежащей в основе биологической реальности, — а не теряться в шуме, вызванном различиями в производителях сканеров или настройках сбора данных.
Показатели скорости и эффективности
Практическое значение этого исследования выходит за рамки показателей точности; выигрыш в эффективности не менее значим. Команда сообщила, что их модели обучались на один-два порядка быстрее, чем альтернативы на базе трансформеров. В конкурсе FOMO25 модели CNN потребовалось менее 36 GPU-часов для предварительного обучения, по сравнению со 100–1000 часами, необходимыми для крупных трансформерных моделей. Такое сокращение времени обучения не только ускоряет темпы исследований, но и значительно снижает углеродный след, связанный с разработкой высокотехнологичного медицинского ИИ.
Более того, этот подход, ориентированный на эффективность, демократизирует доступ к базовым моделям. В то время как массивные модели с 7 миллиардами параметров, такие как DINOv3, требуют вычислительных кластеров промышленного масштаба, модель команды с 20 миллионами параметров может быть обучена и настроена на оборудовании, доступном небольшим исследовательским институтам и больницам. Эта доступность жизненно важна для клинического внедрения ИИ, где модели часто должны быть адаптированы к местным ограничениям оборудования и специфическим популяциям пациентов без необходимости использования огромных серверных ферм.
Открытая наука и перспективы на будущее
Придерживаясь принципов открытой науки, исследователи сделали свои победные модели и код доступными на GitHub по адресу jbanusco/BrainFM4Challenges. Делясь этими инструментами, они стремятся предоставить надежную отправную точку для других исследователей, что потенциально ускорит разработку того, что некоторые называют «общим искусственным интеллектом (AGI) для здравоохранения». Работа команды подчеркивает растущее в отрасли понимание: путь к универсальному медицинскому ИИ может быть проложен не увеличением количества параметров, а более разумным и принципиальным использованием существующих медицинских знаний.
Заглядывая вперед, успех этих компактных моделей ставит важные вопросы о будущей траектории развития ИИ в медицине. Хотя еще предстоит выяснить, смогут ли трансформеры в конечном итоге преодолеть свои текущие ограничения с помощью еще больших наборов данных или более эффективных механизмов внимания, уроки MICCAI 2025 очевидны. На данный момент наиболее эффективный способ анализа человеческого мозга — это создание ИИ, который «понимает» структуру мозга на фундаментальном уровне. По мере того как область движется к более универсальным моделям, интеграция продольных траекторий, дополнительных контрастов и анатомических априорных данных, вероятно, останется золотым стандартом для разработки клинического ИИ.
Comments
No comments yet. Be the first!