在加利福尼亚州的混凝土实验室工作台和数据中心巨大的 GPU 集群上,一种新的工作流程正在悄然重塑元素周期表。现在,不再是化学家们缓慢地调整实验配方,而是由大型神经网络提议原子排列,高通量计算流水线检查它们的热力学归宿,机器人实验室则尝试在几天内制造出胜出的设计。其结果不亚于一场工业规模的化学空间制图:数百万种假设的晶体,其中数十万种被标记为热力学稳定,以及一个新的词汇——“计算炼金术”(computational alchemy),意指通过软件将硅、锂和钴转化为工程发明。
物质规模的 AI
这一转型中最早的公开里程碑之一来自 Google DeepMind 的材料研究项目,该项目使用了一种名为 GNoME(Graph Networks for Materials Exploration,用于材料探索的图网络)的图神经网络方法,通过扫描元素组合和晶格几何结构,预测了约 220 万种候选晶体结构,其中约 380,000 种根据传统热力学标准被确定为高度稳定。DeepMind 发布了这些顶级候选材料,并记录了验证了数百项预测的实验后续行动,展示了数据驱动的循环如何在几个月内将可获取材料的范围扩大到以前需要几个世纪的增量发现才能达到的程度。
Meta 的 Fundamental AI Research 团队在 2025 年采取了互补的路线:它不仅生成晶体,还发布了大规模的原子数据集和预训练的原子间模型,旨在作为可重复使用的物理先验。Open Molecules 2025 (OMol25) 数据集和 Universal Model for Atoms (UMA) 提供了数亿个 DFT 级别的计算和机器学习原子间势,这些潜力可以被微调或组合到下游的发现流水线中。其声明的目标是为研究人员提供现成的“计算显微镜”和快速力场,以便更多的团队(包括大学和初创公司内)能够在不拥有生成训练数据的超级计算机的情况下,运行现实的大规模模拟。
不同的架构,相同的使命
尽管新闻头条将这些努力联系在一起,但背后的 AI 家族各不相同,而且这些差异至关重要。DeepMind 的 GNoME 依赖于经过优化的图神经网络,用于预测生成能,并通过成分和结构搜索提议结构。Microsoft Research 发布了两个姊妹项目——MatterGen,一个根据目标属性提议无机材料的生成扩散模型;以及 MatterSim,一个预测元素在不同温度和压力下的能量和响应的学习型模拟器。这些模型被描述为“生成器/仿真器”对,能够提议方案并在计算机模拟(in silico)中快速筛选它们。
闭环:机器人与主动学习
仅凭预测无法改变物理世界,合成与表征才能。为了实现可用的发明,实验室正在将 AI 模型与自动化实验和主动学习环相结合。模型提议一个候选对象,高通量 DFT 或机器学习替代模型评估其稳定性和属性,自动化或人工实验室尝试合成,测量的结果作为标记数据反馈给模型。DeepMind 等机构报告了与自动化设施(如 Lawrence Berkeley National Laboratory 的自主平台)的合作,这些设施已经合成了一批具有代表性的模型提议材料,证明了闭环发现的实际回报。这种“实验在环”(lab-in-the-loop)的方法正是将预测转化为生产性工程的关键。
这种组合——生成模型、快速机器学习模拟器和机器人技术——创造了一个加速的“飞轮”:更好的预测带来更容易的合成和更多的训练数据,进而改进下一次预测。其结果显而易见:从概念到原型的路径过去往往长达数十年,而在有利的情况下,现在可以缩短到几个月或几年。
政治、算力与开放科学的分歧
这些能力不仅重塑了实验记录本,还重塑了政策和工业战略。美国能源部于 2025 年底启动了 Genesis Mission,这是一项国家级行动,旨在将国家实验室的超级计算机、AI 平台和自动化设施整合为一个单一的发现引擎,服务于能源、材料和国家安全重点领域。该计划拨款并建设基础设施,以构建共享平台,并避免在少数私人实验室内部重复巨大的计算成本。与此同时,Google、Meta 和 Microsoft 等公司继续设定自己的路线图——一些公司开源代码和数据集,另一些公司则将模型和基础设施保留在私有云背后——在专有优势与科学民主化之间制造了张力。
工业利益与近期目标
为什么实验室之外的人也要关心这些?更好的材料是几次工业转型的关键投入:更致密、更安全的固态电池,具有更高转换效率的钙钛矿或叠层太阳能吸收器,更低损耗的导体,甚至可能重塑电网和电子设备的全新超导体。科技公司和国家计划正明确地围绕气候关键目标调整这些努力——电网级储能、高效光伏材料以及减少对战略矿产的依赖。商业竞赛已经显现:Microsoft 将 MatterGen 和 MatterSim 作为工具向从事能源和半导体研究的公司推广,而 DeepMind、Meta 等机构则强调社区发布和合作伙伴关系,旨在将发现汇入工业研发中。
并非每个有希望的候选材料都能实现规模化。目前主要的底技术挑战是“从实验室到工厂”(lab-to-fab):将一个对 DFT 友好的晶体转化为具有可重复性能且成本可控的工业级可制造材料。合成条件、掺杂、晶界和环境老化都是 AI 模型难以完美预测的实际细节。这就是为什么即使在模型预测激增的情况下,实验验证和工程设计仍然不可或缺的原因。
透明度与可重复性的介入
在带来收益的同时,也存在真正的科学风险。大型预训练模型即使在错误模式很微妙时也可能显得具有权威性;如果实验室无法精确复制合成路线,数据集和替代模型可能会嵌入偏差或近似值,导致无法重现的断言。科学界的反应强调了开放数据集、共享基准和独立合成工作,正是为了避免重蹈困扰其他 AI 驱动领域的“可重复性危机”覆辙。
这项工作正在与等变网络(equivariant networks)、可迁移机器学习原子间势以及量化不确定性的主动学习策略的架构研究并行开展。这些技术步骤旨在使预测不仅更快,而且更具解释性和可靠性。其结果是计算机科学、凝聚态物理和实验室自动化的融合,读起来更像是一门工程学科,而不仅仅是一堆聪明的技巧集合。
无论你给它贴上什么标签——计算炼金术、科学 AI 或原子工程——过去两年爆发的浪潮核心在于扩大发现过程的规模。赢家将是那些结合了卓越模型、易于获取的数据集、可重复的实验流水线和公平获取算力的组织。下一个重大新闻头条可能是由模型提议并在工厂中实现的商业化固态电池或常温超导体;在此之前,这项工作将继续是一场以 GPU 速度运行的跨学科马拉松。
来源
- Nature (关于 AI 发现数百万种晶体结构的 GNoME 研究论文)
- arXiv / OMol25 (Open Molecules 2025 数据集和 UMA 模型)
- Lawrence Berkeley National Laboratory 新闻资料 (Berkeley Lab 新闻中心)
- Microsoft Research 出版物和博客文章 (MatterGen 和 MatterSim)
- 美国能源部新闻稿和 Genesis Mission 文档
Comments
No comments yet. Be the first!