效率突破:轻量化 AI 模型在脑部 MRI 分析中如何超越巨型模型

Breaking News Technology
Translucent glass brain sculpture glowing with blue internal fiber optics against a black background
4K Quality
在开发医学基础模型的竞赛中,研究人员证明了大规模计算并非通往成功的唯一路径。通过利用解剖学先验和神经影像学领域知识,一种轻量化神经网络架构在 MICCAI 2025 脑部 MRI 挑战赛中摘得桂冠,其表现超越了规模大得多的基于 Transformer 的模型。

在快速发展的人工智能领域,“越大越好”的准则很大程度上主导了叙事,这主要得益于 GPT 和 DINO 等大型 Transformer 模型的成功。然而,在医疗影像这一至关重要的领域,一项新的突破表明,战略效率和领域专家知识可能比单纯的计算规模更有价值。由 Pedro M. Gordaliza、Jaume Banus 和 Benoît Gérin 领导的研究团队证明,小型化、专业化的模型在复杂的 3D 脑部 MRI 分析任务中,不仅能与大型模型竞争,而且表现显著优于后者。

脑部 MRI 基础模型的兴起

基础模型 (FM) 代表了人工智能领域的一种范式转移。与针对单一特定任务训练的传统模型不同,基础模型在海量无标签数据集上使用自监督学习 (SSL) 进行预训练,使其能够以极少的标注数据针对各种下游应用进行微调。虽然这些模型彻底改变了自然语言处理和 2D 计算机视觉,但它们在 3D 医学影像——特别是神经影像学——中的应用仍然是一个巨大的挑战。大脑解剖结构的复杂性,加上高维的容积 MRI 数据以及采集协议的可变性,为标准 AI 架构创造了独特的瓶颈。

为了应对这些障碍,医学影像界在 MICCAI 2025 会议上设立了两项具有里程碑意义的竞赛:3D 医学影像自监督学习挑战赛 (SSL3D) 和脑部 MRI 基础模型挑战赛 (FOMO25)。这些竞赛是首批评估基础模型在异质临床数据集上泛化能力的严格、标准化基准。仅 SSL3D 挑战赛就汇集了前所未有的数据集,包含来自 34,191 名受试者的超过 114,000 个 3D 容积数据,跨越 800 个不同的数据集。正是在这个竞争激烈的赛场上,代表洛桑大学医院 (CHUV)、洛桑大学 (UNIL) 和 CIBM 生物医学影像中心等机构的研究团队,凭借一种惊人的精简方法获得了第一名。

小型 AI vs. 海量 Transformer

研究团队成功的发现中最引人注目的一点是:卷积神经网络 (CNN),特别是 U-Net 架构,在面对目前流行的基于 Transformer 的模型时仍然保持着统治地位。在 FOMO25 和 SSL3D 挑战赛中,没有任何基于 Transformer 的参赛作品能够达到获胜 CNN 方法的性能。这种差异凸显了一个关键的技术局限:Transformer 虽然在 2D 或基于文本的任务中表现强大,但在处理 3D 容积 Token 化产生的大量 Token 计数时,会面临二次复杂度问题。这造成了计算瓶颈,限制了这些模型能够有效管理的空间分辨率和上下文信息。

该研究团队的模型在达到顶级性能的同时,体积比 ViT-L DINOv2 3D 等基于 Transformer 的竞争方案小约 10 倍。虽然较大的模型通常拥有数亿个参数,但获胜的基于 CNN 的架构仅使用了 2,000 万个参数。尽管体量更小,但团队报告称,与基于 Transformer 的对手相比,其分割任务的平均 Dice 评分高出 2.5%,分类任务的准确率提高了 8%。这表明人工智能的“惨痛教训”——即通用方法最终会通过规模取胜——可能尚未适用于资源受限且复杂的 3D 医学影像领域。

领域知识的力量

该团队成功的秘诀在于将解剖先验和神经影像领域知识整合到模型架构中。Gordaliza、Banus 和 Gérin 并没有将 3D 容积视为通用的数据点,而是设计了他们的系统来解耦受试者不变的解剖结构与对比度特异性的病理特征。通过强制模型识别某些解剖特征在不同的 MRI 对比度(如 T1 加权或 T2 加权图像)和时间点之间保持一致,他们为神经网络提供了一种“归纳偏置”,防止其学习伪相关或采取计算捷径。

在 SSL3D 挑战赛中,研究人员将学习到的表示分为两个不同的部分:一个被约束为匹配单个受试者所有图像中的解剖分割,另一个则针对检测病理进行了优化。在 FOMO25 赛道中,他们实施了跨对比度重建目标,在预训练期间交换同一受试者不同扫描之间的表示。这种针对特定领域的引导使模型能够专注于临床环境中真正重要的东西——潜在的生物学现实——而不是迷失在不同扫描仪制造商或采集设置的噪声中。

速度与效率基准

这项研究的实际意义超出了准确率评分;效率的提升同样具有变革性。团队报告称,他们的模型训练速度比 Transformer 替代方案快一到两个数量级。在 FOMO25 挑战赛中,CNN 模型预训练所需的 GPU 小时数不到 36 小时,而大型 Transformer 模型则需要 100 到 1,000 小时。训练时间的减少不仅加快了研究步伐,还显著降低了开发高端医疗 AI 相关的碳足迹。

此外,这种“效率优先”的方法降低了基础模型的准入门槛。虽然像 DINOv3 这样拥有 70 亿参数的巨型模型需要工业级计算集群,但该团队的 2,000 万参数模型可以在小型研究机构和医院现有的硬件上进行训练和微调。这种可访问性对于 AI 的临床部署至关重要,因为模型通常必须适应当地的硬件限制和特定的患者群体,而无需庞大的服务器机群。

开放科学与未来影响

为了致力于开放科学,研究人员已通过 GitHub (jbanusco/BrainFM4Challenges) 公开了获胜的模型和代码。通过分享这些工具,他们旨在为其他研究人员提供一个强大的起点,从而有可能加速被某些人称为“医疗通用人工智能 (AGI)”的发展。该团队的工作强调了该领域日益增长的一个共识:通往通用医疗 AI 的道路可能不在于更多的参数,而在于对现有医学知识更聪明、更原则性的利用。

展望未来,这些小型化模型的成功引发了关于人工智能在医学领域未来轨迹的重要问题。虽然 Transformer 是否最终能通过更大的数据集或更高效的注意力机制克服当前的局限性仍有待观察,但 MICCAI 2025 的教训是明确的。目前,分析人类大脑最有效的方法是构建能够从底层“理解”大脑结构的 AI。随着该领域向更具通用性的模型迈进,纵向轨迹、互补对比度和解剖先验的整合可能仍将是临床 AI 开发的金标准。

James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Readers Questions Answered

Q 什么是脑部 MRI 基础模型?
A 脑部 MRI 基础模型是一种大规模、预训练的深度学习架构,旨在利用对比学习或掩码自编码等自监督学习技术,从多样的脑部 MRI 数据集中提取通用的、可泛化的表示。[1][3] 这些模型(如 BrainIAC)能够以极少的微调快速适应下游任务,包括诊断、分割、异常检测和脑年龄预测,在健康和病理扫描上的表现均优于传统的监督学习方法。[1][3] 它们利用跨模态、厂商和中心的异质数据,以提高临床鲁棒性和效率。[2][1]
Q 为什么在 3D 医学任务中 CNN 比 Transformer 更高效?
A 在 3D 医学任务中,CNN 比 Transformer 更高效,主要是因为其计算需求较低,包括更少的参数和更低的 FLOPs。例如,3D U-Net 拥有 58M 个参数和 652 GFLOPs,而像 PHTrans 这样的 Transformer 混合模型虽然参数量相似,但在某些情况下 FLOPs 更低;纯 Transformer 通常会显著增加参数量,如 TransUNet 增加了 12 个 Transformer 模块。[1][3][6] 这使得 CNN 速度更快,更适合资源受限的临床环境,尽管 Transformer 在混合构建时在全局建模方面具有优势。[3][6]
Q 领域知识如何提高 AI 在神经影像学中的准确性?
A 领域知识通过指导正确的数据标注、评估指标以及处理观察者间差异和极端情况等挑战,来提高 AI 在神经影像学中的准确性,防止因数据不平衡或标注不佳而产生具有误导性的高分[1]。它确保模型关注临床相关的特征而非伪影,正如在手术器械分割和脑病变检测中所见,模糊的指令会导致错误[1]。结合领域专业知识还能增强可解释性和验证,从而弥合医疗影像中“黑盒” AI 预测与人类可解释决策之间的差距[2]。

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!