丹麦理工大学的 PathogenFinder2 可评估未知细菌的潜在威胁——但仍面临挑战

遗传学
DTU's PathogenFinder2 can assess the potential threat from unknown bacteria — but there's a catch
丹麦理工大学(DTU)的研究人员发布了 PathogenFinder2,这是一款通过扫描全基因组来标记此前未见细菌中疾病相关特征的人工智能工具。该工具能快速评估潜在威胁,但其验证过程、数据偏差以及政策选择将决定它是助力预防疫情,还是演变成一个误报频发的预警系统。

DTU的新模型带着显著的承诺与现实的张力而来

2026年3月27日,Technical University of Denmark (DTU) 的研究人员上线了一项全新的 AI 服务:PathogenFinder2。这是 Global Pathogen Analysis Platform (GPAP) 中的一个免费模块,声称允许用户测试细菌全基因组,并由该工具评估这些基因组可能构成的潜在威胁。在发表于 Bioinformatics 期刊论文的一份简明摘要中,由 Alfred Ferrer Florensa 领导的团队表示,该模型可以识别出与致病性相关的蛋白质和遗传信号,即使该生物体没有已知的近缘种。其结果是一个快速、可解释的标记系统,适用于污水调查、野生微生物发现和微生物组扫描。从理论上讲,它将评估工作从“我们不知道”转向“这一个看起来令人担忧”。

这种能力在当下至关重要,因为针对废水、食品、动物宿主和人类样本的基因组测序呈爆炸式增长。各研究小组正在发现没有临床历史的细菌物种;公共卫生机构无法在每次出现轻微警报时都等待数周的培养工作和漫长的表型分析。PathogenFinder2 承诺对这些发现进行分类,指出哪些基因组需要紧急的湿实验室后续研究,而哪些可以被归档为背景噪音。但这项技术也带来了熟悉的权衡:更快的分类意味着更多的虚假警报;模型的可解释性也伴随着训练集的偏见;以及在公共卫生价值之外,关于谁来对警告采取行动方面存在显著的治理鸿沟。

该工具如何评估潜在威胁:蛋白质语言模型与 21,000 个基因组

该团队在据称是迄今为止最大的标注数据集上对系统进行了训练和验证:超过 21,000 个基因组,这些基因组被标注为疾病相关或非致病性,取自临床分离株、微生物组调查、益生菌菌株甚至嗜极微生物。关键在于,该模型还会返回解释:它会突出显示对高风险评分影响最显著的特定蛋白质或区域——包括毒素或黏附素等经典的致病因子,以及此前未表征、值得实验室研究的蛋白质。这种可解释性是刻意为之的:DTU 将 PathogenFinder2 定位为证据优先排序工具,而非致病性的最终判定者。

该工具何时评估潜在威胁——优势、盲点及与实验室测试的对比

但计算预测并不能替代表型分析。经典的微生物学方法——生长曲线、宿主细胞相互作用分析、动物模型和临床相关性——仍然是证明细菌致病的金标准。AI 评分是概率性的,容易出现两种实际错误:假阴性(模型尚未学习到的新机制)和假阳性(在某些环境下与致病性相关但在另一种环境下无害的生化特征)。此外,测序平台各不相同——Illumina 和 Nanopore 具有不同的错误特征——而这些技术差异可能会改变哪些蛋白质被可靠地检出。结论是:PathogenFinder2 最好被视为一个决策支持过滤器,用于优先挑选样本进行针对性的实验室验证,而不是一个公共卫生判定机器。

PathogenFinder2 在监测中的位置以及它如何改变公共卫生决策

如果应用得当,基因组分类工具可以缩短从发现到采取行动之间的延迟。DTU 及其合作伙伴指出了一些公共卫生团队已经熟悉的用途:用于早期爆发信号的污水监测、筛选食品链中的环境样本,以及挖掘健康人的微生物组以识别携带风险特征的菌株。如果来自污水管道的基因组在多个高影响蛋白质上显示高分,实验室可以优先对该样本进行培养和感染力测定,监管机构也可以启动针对性的接触者追踪或采样。

然而,这类工具对政策的影响取决于若干现实操作情况。首先,各地区的实验室和临床能力差异巨大:许多公共卫生系统缺乏确认 AI 标记所需的生物安全高等级实验室和专门测试。其次,机构需要对其当地环境下的工具运行特征(灵敏度、阳性预测值和假阳性模式)充满信心,这需要独立的验证数据集,而不仅仅是 DTU 组建的训练集。第三,政策制定者必须权衡依据 AI 线索采取行动的成本与过早发出警报的社会及经济后果。该工具缩短了一个时间线(基因组分类),但它本身并不能完成从基因组信号到有效干预的闭环。

权力、隐私与双重用途:部署评估潜在威胁的模型揭示了哪些治理问题

PathogenFinder2 处于能力与责任的复杂交汇点。有三个治理风险值得关注。一是隐私和数据共享法律:基因组数据——尤其是与人类或农业元数据关联时——在许多司法管辖区受到严格规则的约束(例如欧洲的 GDPR)。稳健的训练和评估所需的跨境数据流往往受到政策限制。二是公平性:财力雄厚的实验室将快速验证 AI 标记;而资源匮乏的地区可能会看到预测工具放大其行动能力的不足,从而拉大监测差距。

第三个风险是双重用途。评论人士指出,AI 方法可能被改造成用于设计或调整生物制剂。PathogenFinder2 团队强调可解释性和公共利益用途,但开放、强大的模型不可避免地会在透明度与潜在滥用之间产生权衡。该领域必须将能力与分层防御措施相结合:对原始序列搜索进行访问控制、阶段性披露模型内部机制,以及来自已处理病原体监测和食品安全的国际机构的强力监管。如果没有这些措施,一个旨在减少意外的工具可能会成为新风险的媒介。

数据缺口与该工具所需的下一阶段证据

基因组是精确的;但围绕它做出的决策却并非如此。PathogenFinder2 读取蛋白质;各机构能否正确解读这些警告,将决定该工具是能预防下一次疫情爆发,还是仅仅在已经拥挤不堪的公共卫生驾驶舱中增加了一个仪表盘。

Sources

  • Bioinformatics (journal) — Florensa A. F. et al., whole‑genome prediction of bacterial pathogenic capacity using protein language models (PathogenFinder2).
  • Technical University of Denmark (DTU) — DTU National Food Institute press materials and research group for Genomic Epidemiology.
  • npj Science of Food (Nature) — review: Advancing microbial risk assessment and detection technologies.
  • World Health Organization (WHO) — guidance documents referenced for international risk assessment frameworks and data sharing.
Wendy Johnson

Wendy Johnson

Genetics and environmental science

Columbia University • New York

Readers

Readers Questions Answered

Q AI工具如何评估新发现细菌构成的威胁?
A PathogenFinder2 使用深度学习模型分析细菌基因组,并识别与致病潜力相关的遗传特征。该工具会突出显示对其评估影响最大的特定蛋白质,包括已知的毒力因子(如毒素或附着结构),以及可能在疾病中发挥作用的未定性蛋白质。
Q AI分析哪些数据来预测细菌的致病潜力?
A 该AI仅通过分析细菌的基因组序列来预测对人类的致病能力。它使用蛋白质语言模型来检查遗传模式,并识别基因组中与致病能力相关的蛋白质,然后报告哪些蛋白质对预测最为重要。
Q 与传统方法相比,基于AI的细菌威胁预测有多可靠?
A 搜索结果并未提供基于AI的预测与传统实验室细菌威胁评估方法之间的直接对比。然而,相关研究表明,预测细菌对消毒剂耐药性的AI方法可以在几分钟内做出准确预测,而实验室测试则需要数天,这表明其具有潜在的效率优势。
Q 使用AI评估病原体风险有哪些伦理和生物安全方面的考虑?
A 搜索结果表明,PathogenFinder2 的开发遵循了管理公共卫生、动物健康和环境健康的国际和国内法规,以及 FAIR 和 CARE 原则所涵盖的伦理方面。然而,结果强调,研究人员在得出最终结论之前必须进一步审查模型的发现,这表明在将预测应用于现实决策时应保持谨慎。
Q AI工具可能如何影响有关新兴细菌的公共卫生决策?
A 像 PathogenFinder2 这样的 AI 工具可以使当局在感染发生之前,通过识别污水、健康人类和动物中具有致病潜力的细菌,从而预防疫情爆发,而不仅仅是做出反应。这种早期检测可以为更早开发检测方法、疫苗和治疗手段提供基础,从而有可能改观大流行的准备工作,并实现更快的公共卫生响应。

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!