How did AI find new objects in old Hubble data?

AI found new objects in Hubble's 30-year archive primarily through deep learning techniques like convolutional neural networks trained to recognize asteroid trails as curved streaks in single-exposure images, achieving over 80% accuracy. Other methods include pixel-by-pixel analysis with tools like Morpheus to detect and classify galaxies and stars in Hubble Legacy Fields, and unsupervised machine learning using image descriptors and transforms to identify outlier galaxies by measuring distances in feature space. These approaches automated the scanning of tens of thousands of images, uncovering previously missed objects like 1,400 mysterious ones that manual inspection overlooked.

What kind of anomalies were discovered by the astronomers?

Astronomers using AI-assisted search discovered 1,400 anomalous astrophysical objects in the Hubble Legacy Archive, including 417 previously unknown galaxy mergers or interacting galaxies, 138 candidate gravitational lenses, 18 jellyfish galaxies, and 2 collisional ring galaxies. Other anomalies encompass edge-on protoplanetary disks, rare galaxy morphologies, relativistic jets, and lensed quasars. These rare cosmic phenomena were identified through the AnomalyMatch method applied to approximately 100 million image cutouts.

How many images are in the Hubble Legacy Archive?

The Hubble Legacy Archive (HLA) contains over 100 million sources, as noted in a 2010 astronomical abstract describing its construction to enhance access to HST data. Specific image counts include 2562 ACS mosaic images for 1077 pointings, 1744 WFC3 mosaic images for 610 pointings, and new mosaic data products for 1348 fields, but no single total number of all images is provided in available sources. The archive hosts extensive Hubble observations, including those used in projects like the Hubble Legacy Field with nearly 7,500 exposures.

AI 辅助搜索在哈勃 30 年档案中发现 1,400 个神秘天体

三十多年来，哈勃空间望远镜（Hubble Space Telescope）一直是人类观测宇宙的首要窗口，它捕获的图像重新定义了我们对恒星诞生、星系演化以及宇宙膨胀本身的理解。然而，该天文台产生的数据量早已超出了人类研究人员检查每一帧图像的能力。在发表于《天文学与天体物理学》（Astronomy & Astrophysics）杂志的一项里程碑式研究中，来自欧洲航天局（ESA）的天文学家团队利用尖端的人工智能工具，对这堆积如山的数据进行了筛选，发现了近 1,400 个此前未被探测到的异常天体。通过在短短 60 小时内扫描 1 亿张图像切片，研究人员展示了机器学习如何将数百年的手工劳动转化为几天的计算处理。

现代天文学中大数据的挑战

哈勃遗产档案（Hubble Legacy Archive）是历史上最重要的科学信息库之一，包含了跨越 35 年观测的数万个数据集。虽然该档案是天体物理研究的宝库，但也呈现出一个令人生畏的“大海捞针”问题。传统上，发现碰撞星系或引力透镜等稀有或异常天体，需要天文学家手动检查图像，或依赖于在不相关的研究中偶然发现。即便有了公民科学项目的出现，即成千上万的志愿者协助对天体进行分类，现代望远镜获取数据的速度也正在迅速超过人类集体努力的极限。

自动化系统的必要性从未如此紧迫。随着望远镜变得更加强大，巡天观测变得更加全面，这根“针”所在的“草堆”不再仅仅是巨大，而是正以指数级速度增长。ESA 的研究人员 David O’Ryan 和 Pablo Gómez 意识到，为了在哈勃数据中找到那些最具“独特性”且具有科学意义的离群值，他们需要一种方法，将人类大脑细微的模式识别能力与现代处理器无情的速度相结合。这促成了一款专门为搜寻不寻常现象而设计的精密新工具的开发。

方法论：60 小时处理 1 亿张图像

为了处理积压的档案，该团队开发了一个神经网络——一种受人类大脑生物结构启发的 AI 架构——并将其命名为 AnomalyMatch。与被编程为寻找特定、定义明确的天体（如恒星或螺旋星系）的标准算法不同，AnomalyMatch 经过训练可以识别“怪异”现象。它寻找偏离常态的模式，例如扭曲的对称性、不寻常的气态附属物或变形的光信号。该神经网络被部署用于扫描来自哈勃遗产档案的近 1 亿张图像切片，这标志着整个馆藏首次被系统地搜索天体物理异常。

这种 AI 的效率令人震惊。专业天文学家团队需要数十年才能完成的手动检查工作，AnomalyMatch 仅用两天半就完成了。然而，研究人员强调，AI 并非孤立运行。一旦算法标记出潜在目标，O’Ryan 和 Gómez 就会亲自检查这些高概率来源，以验证其真实性。这种“人在回路中”（human-in-the-loop）的方法确保了 AI 的速度能够与资深科学家的专业知识相结合，从而过滤掉可能愚弄不够精密的系统的数字伪影或相机噪声。

记录“独特”的发现

此次搜索产生了一个包含 1,400 个异常天体的宝库，其中多达 800 个从未在科学文献中被记录过。该目录包含了各种各样的宇宙稀有天体，挑战了我们对空间的视觉预期。其中的发现包括：

碰撞环星系：当一个星系穿过另一个星系的中心时形成的稀有结构，会产生恒星形成的涟漪。
引力透镜和弧：大质量前景天体的引力将更遥远星系的光线弯曲成圆圈或拉长的弧线的情况。
水母星系：在穿过星系际介质时，长长的气态“触手”被剥离的系统。
侧向原行星盘：从侧面观察时看起来像“汉堡”或“蝴蝶”的处于发育阶段的太阳系。

或许最重要的是，发现了数十个无法用现有分类定义的物体，它们代表了可能需要进一步调查的新型天文现象类别。

为什么异常现象对科学至关重要

在天体物理学领域，离群值往往比平均值更重要。虽然标准星系告诉我们宇宙在大多数时间里的运行方式，但异常现象则揭示了宇宙在极端条件下的表现。“哈勃空间望远镜的档案观测现在可以追溯到 35 年前，提供了一个可能发现天体物理异常的宝库，”该研究的第一作者 David O’Ryan 指出。这些“独特”的天体为测试引力理论、暗物质和星系演化提供了关键的数据点。例如，稀有的引力透镜可以充当天然望远镜，让研究人员能够比其他方式看得更远。

此外，这些发现为未来的观测提供了路线图。通过现在识别出这 1,400 个天体，科学界可以优先使用更先进的仪器，如詹姆斯·韦伯空间望远镜（JWST），对它们进行后续研究。了解为什么一个星系呈现出“水母”形状，或者为什么一个恒星形成盘表现出不对称性，可以让我们在理解深空气体流体动力学和恒星生命周期方面取得突破。

档案研究的未来

AnomalyMatch 工具的成功对未来太空探索具有深远意义。我们目前正在进入一个“巡天文学”时代，ESA 的欧几里得（Euclid）空间望远镜和薇拉·鲁宾天文台（Vera C. Rubin Observatory）等新设施将产生 PB 级的数据。欧几里得望远镜于 2023 年开始巡天，其任务是绘制横跨三分之一天空的数十亿个星系图。如果没有像 O’Ryan 和 Gómez 开发的这种 AI 工具，这些任务中大部分最有趣的数据可能会在数字档案中埋没数代之久。

研究共同作者 Pablo Gómez 强调了他们工作的更广泛效用，他表示：“这是对 AI 的一次绝佳利用，最大化了哈勃档案的科学产出。在哈勃数据中发现这么多异常天体是一个伟大的结果，因为你本以为其中很多可能已经被发现了。”该团队的方法论起到了概念验证的作用，可以应用于即将推出的南希·格雷斯·罗曼空间望远镜（Nancy Grace Roman Space Telescope），该望远镜计划于 2027 年发射，将提供更宽视野的红外宇宙视图。

发现的新范式

随着我们不断前进，天文学家与人工智能之间的关系正在从简单的自动化演变为深度的协作。AI 充当“第二双眼睛”，能够看到人类肉眼由于疲劳或认知偏见可能忽略的噪声中的模式。通过将科学家从分类数百万张图像的机械任务中解放出来，这些工具让研究人员能够专注于推动该领域向前发展的高级分析和理论工作。

这 1,400 个天体的发现提醒我们，像哈勃这样的“大天文台”仍有许多秘密尚待揭开。即使我们发射了更新、更强大的望远镜，我们已经收集的数据仍然是一个重要的前沿领域。在 30 年前的光芒与现代神经网络的结合中，天文学家找到了一种方法，确保没有任何宇宙之谜——无论多么独特——会继续隐藏在黑暗中。

AI 辅助搜索在哈勃 30 年档案中发现 1,400 个神秘天体