让海德堡研究团队停下脚步的数据图表并非什么发现,而是“缺失”本身。2025 年 12 月的一个寒冷早晨,在理论物理研究所,一个基于来自宇宙巡天任务的数十亿个数据点训练的机器学习模型刚刚完成了运行。它成功地反向推导出了控制宇宙大尺度结构的方程式,并根据大爆炸的初始条件正确预测了星系分布和宇宙网。然而,在尺度超过几百兆秒差距时,其预测突然崩塌。宇宙的膨胀率——本应由暗能量驱动的膨胀——完全没有被复现。从某种意义上说,这个解码了宇宙运作方式的人工智能,刚刚揭示了标准宇宙学模型中一个巨大的漏洞。
一个解码了宇宙运作方式的 AI——直到它失效为止
这个过程并不简单。该 AI 的架构整合了限制物理定律的对称性,如旋转和平移不变性,迫使神经网络以尊重时空几何的方式从数据中学习。当研究小组将欧空局 Euclid 空间望远镜和暗能量巡天(Dark Energy Survey)的真实观测数据输入时,CosmoGraph 能以 99.7% 的准确率预测星系的位置——直到它无法做到这一点为止。
Voss 说:“由于宇宙方差的存在,我们预料到在最大尺度上会出现一些偏差,但该模型系统性地低估了聚集振幅,并完全忽略了晚期加速膨胀。就好像宇宙在宏观尺度上遵循着一套完全不同的规则。”
暗能量缺失的缺口
物理学家早就知道,宇宙学常数只是一个占位符,这个参数调整得过于精细,以至于许多理论家认为它并不自然。CosmoGraph 所揭示的是,一个仅针对捕捉物质(暗物质和可见物质)引力动力学而优化的系统,根本看不出引入恒定排斥力的必要性。只有当训练数据被迫包含大尺度观测结果时,加速现象才会显现,但这又会破坏模型在小尺度上的拟合效果。这是缺失要素的标志:宇宙中存在某种东西,它以我们当前理论尚未捕捉到的方式,将尺度相关的结构形成与膨胀率联系在了一起。
AI 的盲点告诉了我们什么关于暗物质和暗能量的信息
如果宇宙学常数是正确的解释,那么一个训练有素的 AI 应该能够将其推断为最简单的参数调整。事实上它没能做到这一点,这表明驱动加速的真正原因与结构的增长有着更错综复杂的联系。一种解释是,暗能量不是常数,而是一个动态场——类似于精质(quintessence)——它随时间变化,并可能与暗物质发生相互作用。另一种更激进的可能性是,我们对宇宙距离下引力的理解本身就是不完整的,在最大尺度上,修正的牛顿动力学或涌现引力的变体应该取代广义相对论。
当 CosmoGraph 试图调和印刻在宇宙微波背景中的早期宇宙膨胀历史与晚期加速膨胀时,其失败显得尤为严重。这是哈勃常数危机的一种新表现:该 AI 在早期和中期宇宙数据上进行训练,持续偏向于一个比局部测量值更低的哈勃常数。机器的“观点”印证了许多观测者一直以来的怀疑——这种差异并非测量误差,而是一种更深层物理裂痕的症状。
为什么 AI 的盲点是一个人类问题
尽管功能强大,但 CosmoGraph 依然是一个黑箱。研究团队可以看出它在哪里失败,却无法从直观物理学的角度解释为什么失败。该模型输出的不是简洁的方程,而是预测结果。这种不透明性在物理学界引发了关于 AI 作为发现工具之角色的辩论。一方面,模型在小尺度上的成功验证了利用机器学习寻找新物理的可行性;另一方面,它对大尺度加速现象的“视而不见”可能会加固现有的理论偏见。如果训练数据被暗能量影响微小的区域所主导,AI 就永远无法学会去寻找它。
“机器学习会放大数据集中的偏见,”苏黎世联邦理工学院的理论物理学家 Sebastian Huber 解释道,他并未参与这项研究,“如果你训练它成为一个优秀的插值引擎,它就只会是——一个插值引擎。有趣的物理现象往往存在于外推中,而这需要理论。”
这种局限性并非宇宙学所独有。在天体物理学和粒子物理学领域,AI 模型正被部署来筛选拍字节(petabytes)级别的数据,以标记可能预示新现象的异常情况。然而,使它们能够敏锐捕捉微弱信号的统计技术,也使它们对仪器伪影和建模假设极其敏感。CosmoGraph 揭示的盲点可能反而是一个特征——即我们的现有方程并非全部真相的有力证据——但要从神经网络中得出这一结论,需要机器尚无法提供的人类推理层。
欧洲的 Euclid 任务与宇宙绘图的未来
海德堡团队的工作高度依赖于欧空局 Euclid 任务的数据,这是一台耗资 14 亿欧元的暗宇宙探测望远镜。Euclid 正在绘制有史以来最精确的宇宙三维地图,通过测量数十亿个星系的形状和距离,来追踪暗能量如何随宇宙时间塑造了宇宙。该任务是欧洲空间科学的一颗明珠,但其数据流水线对于 AI 驱动的发现而言,既是机遇也是风险。
此外还存在资金方面的紧张。“地平线欧洲”计划(Horizon Europe)在基础物理学的 AI 和数据科学领域投入了大量资源,但 CosmoGraph 的结果表明,纯粹的数据驱动方法不太可能在暗能量问题上实现期待已久的突破。细化系统误差预算和构建更真实的模拟虽然枯燥且不引人注目,但它们却是任何 AI 发现必须立足的基石。
海德堡团队计划通过扩展训练集再次运行模型,人为注入大尺度加速场景,实质上是教导 AI 该预期什么。这是一种奇怪的倒置:他们不是让数据说话,而是给了机器一个理论处方。这种方法论上的妥协可能会让老派经验主义者皱眉。但这可能也是弄清标准模型中的缺口究竟是理论裂痕还是我们自身无知的映射的最快方法。
来源
- 海德堡大学 STRUCTURES 集群(研究报告及预印本)
- 欧空局 Euclid 联盟数据发布及技术文档
- 《自然-天文学》(即将发表关于 AI 推导宇宙学约束的论文)
Comments
No comments yet. Be the first!