人工智能设计 DNA 开关以控制基因

遗传学
AI Designs DNA Switches to Control Genes
生成式模型正在创建合成 DNA 增强子和遗传电路,能够可靠地在特定哺乳动物细胞中开启或关闭基因。这一进展在加速疗法设计的同时,也引发了关于治理和制造方面的问题。

2025年5月8日,巴塞罗那Centre for Genomic Regulation的一个团队在《Cell》上发表论文,展示了一个人工智能系统可以设计短小的合成DNA调控序列,在健康的哺乳动物细胞内充当细胞类型特异性开关。不到一年后,Rice University的另一个小组在《Nature》上宣布了一项互补性进展——一个名为CLASSIC的实验平台,它可以将数百万个完整的遗传电路映射到细胞输出,并将这些测量结果反馈给机器学习模型,以便它们能够预测广大未测试设计空间的功能。这些论文共同标志着一个快速的转变:DNA序列的算法想象正在从玩具示例转向能够可靠地改变活细胞中基因活性的真实分子,工业界和政策制定团体正在竞相调整制造和监管以与之匹配。

一类新型合成增强子

巴塞罗那团队发表在《Cell》上的论文描述了一种生成式人工智能,它接受了关于短DNA片段(增强子)在血细胞发育过程中如何影响基因表达的大规模测量数据的训练。增强子是招募转录因子并决定基因表达时间和地点的非编码DNA片段。CRG团队合成了超过64,000种变体,旨在测试数十种转录因子的结合基序组合和排列,然后测量了造血作用多个阶段的活性。模型从这些数据中学习了设计规则,并提出了自然界中从未存在过的序列,但当这些序列被引入小鼠原始造血祖细胞时,其表现符合预期:一些起到了分级刻度盘的作用,另一些则产生了接近二进制的开/关行为,许多序列显示出惊人的细胞类型特异性。

大规模文库与利用CLASSIC映射遗传电路

CLASSIC为设计者揭示了两个实践教训。首先,电路往往不是单解问题——许多不同的设计可以实现相同的输出——这给了工程师在鲁棒性、强度和资源成本之间进行权衡的灵活性。其次,中等强度的部件往往优于最极端的组件;换句话说,生物学有其自身的“金发姑娘区”(Goldilocks zones)。关键是,该流程通过合成和测试预测的设计得到了验证:数十个由AI选择的电路与实验室读数相匹配,表明当训练集规模巨大且经过精心测量时,模型可以推广到其训练集之外。

从计算机模拟设计到活细胞

这两项工作都强调了紧密耦合的“设计-构建-测试”循环。在巴塞罗那,AI提出短增强子序列;研究人员合成这些250个碱基的片段,将其包装到递送载体中,并将其插入活体哺乳动物细胞,以读取不同细胞状态下的活性。在休斯顿和合作实验室,CLASSIC策略产生完整电路的文库,读取成千上万或数百万个细胞的输出,并将这些结果返回给机器学习模型,由其推荐下一轮候选方案。

实际结果是速度和创造力。传统的遗传工程需要数月的时间进行迭代调试和专家直觉判断,而AI加之大规模并行测量,使团队能够以前所未有的规模探索组合空间。这加速了用于治疗性启动子、谱系限制性表达框以及细胞中更复杂的逻辑门的功能性DNA开关的发现。

以AI速度制造:无细胞合成与供应链

如果合成和生产跟不上,设计就会超过供应。工业团体和一些初创公司已经在适应:无细胞DNA合成工作流——它无需在细菌中克隆即可组装线性IVT就绪模板——消除了污染源(内毒素、宿主DNA),并避免了使长同聚物(如编码的poly(A)尾)在质粒中不稳定的重组问题。这些优势对于AI循环至关重要,因为模型迭代迅速,并要求在紧迫的时间表内提供许多不同的定制模板。

无细胞模板还减少了下游poly(A)尾长度和序列完整性的变异性,提高了体外转录产物的可重复性。当AI提出数百或数千个候选序列时,一个能够提供合成、质量控制(QC)和IVT模板的快速、自动化友好型供应链就成了瓶颈——这意味着公司、合同制造商和学术核心设施正在围绕无细胞方法进行重组,以匹配计算速度。

应用、约束与早期局限

但也有现实的制约因素。调控基因组是庞大且依赖于语境的:CRG的研究仅剖析了转录因子和细胞状态的一个子集,而Rice University的CLASSIC演示是在模型细胞系中进行的,用于原理证明。将培养皿中有效的序列转化为人类安全、持久且有效的疗法,需要广泛的临床前验证。当训练数据反映目标语境时,模型的泛化效果最好;训练集中的空白仍然是失败的主要原因。

风险、治理与人类监督

快速的设计和廉价的合成引发了合成生物学界多年来一直在努力解决的安全和治理问题。发表在《npj Biomedical Innovations》上的一篇综述将其定义为一个收敛问题:人工智能降低了复杂生物工程的技术门槛,而自动化实验室和廉价合成则扩展了能力和分布。这种结合既扩大了有益的可及性,也增加了双重用途风险。

最近的评论和政策工作提出了三个治理重点。首先,模型和设计流程的可解释性和审计追踪:不透明的“黑盒”建议更难评估故障模式或滥用情况。其次,在决策关键节点的人机回环(human-in-the-loop)控制——在专家审查和功能分析之后,才允许将任何序列发布到生物系统中。第三,供应链措施和序列筛查标准,以检测那些即使是新颖的但也可能启用有害功能的设计。各国扩大核酸合成筛查的努力证明了这些技术目前受到的政策关注。

科学发展迅速,目前,谨慎的做法是将对人工智能创造力的热情与深思熟虑、透明的实践相结合,以界定风险、记录来源并在最重要的环节保留人类判断。

来源

  • Cell (关于AI设计合成增强子的研究论文)
  • Nature (研究论文:用于超高通量遗传电路映射的CLASSIC平台)
  • npj Biomedical Innovations (AI与合成生物学收敛分析)
  • Centre for Genomic Regulation (CRG), Barcelona
  • Rice University Synthetic Biology Institute
  • Pompeu Fabra University (UPF)
Wendy Johnson

Wendy Johnson

Genetics and environmental science

Columbia University • New York

Readers

Readers Questions Answered

Q 巴塞罗那CRG在《细胞》(Cell)杂志上发表的研究展示了关于人工智能设计的DNA开关的什么内容?
A 该研究表明,人工智能系统可以设计短的合成DNA调节序列,在健康的哺乳动物细胞中充当细胞类型特异性开关。通过合成和测试超过64,000个增强子变体并测量其在血液发育过程中的活性,研究团队发现了能产生分级或接近二元表达且具有强细胞类型特异性的序列,并且模型从数据中推断出了设计规则。
Q 什么是CLASSIC,它展示了什么?
A 来自莱斯大学的CLASSIC平台将数百万个完整的遗传回路映射到细胞输出,并将这些测量结果输入机器学习模型,以预测巨大且未测试的设计空间中的功能。它表明,许多设计可以实现相同的输出,并且中等强度的部件往往优于极端组件。数十个由人工智能选择的回路与实验室读数相匹配,证实了模型的泛化能力。
Q 人工智能设计的DNA开关如何加速进展,它们使用什么工作流?
A 这两项研究都强调严格的“设计-构建-测试”循环。人工智能提出短增强子序列或完整回路;研究人员合成这些设计(250个碱基的片段或文库变体),将其插入活细胞或无细胞系统中以读取活性,并将结果反馈给模型以提出下一轮方案,从而能够快速探索胜过传统方法的组合设计空间。
Q 讨论了哪些限制和治理影响?
A 文章指出了调控基因组的复杂性和环境依赖性;巴塞罗那《细胞》杂志的研究仅分析了转录因子和细胞状态的一个子集,而CLASSIC的演示使用了模型细胞系,因此将设计转化为安全的人类疗法需要广泛的临床前验证。治理重点包括可解释性和审计追踪、决策关键节点的“人在回路”控制,以及在发布到生物系统之前对序列进行门控过滤。

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!