人工智能如何重塑 CRISPR

遗传学
How AI Is Reinventing CRISPR
研究人员正将机器学习与基因组编辑相结合,旨在设计更优的核酸酶、预测编辑结果并加速实验规划,但技术、伦理和监管方面的挑战依然存在。

人工智能邂逅基因组编辑

在过去的五年里,机器学习的进展已从预测蛋白质折叠跨越到发明功能性生物分子和指导复杂的实验室方案。对于 CRISPR 系统已经改变了分子生物学的基因组编辑领域而言,AI 不再仅仅是一种便利:它正成为一个活跃的设计伙伴,能够建议新的酶,优化向导 RNA,并在触及单个细胞之前预测编辑结果。

这些发展有望带来更快、更便宜且更精确的编辑,从而加速治疗项目、功能基因组学和农业工程的进程。但它们同时也引发了关于验证、安全和监管的实际与伦理问题,科学家和监管机构必须同步面对这些挑战。

AI 为 CRISPR 工作流程带来了什么

广义上讲,AI 通过三种互补的方式为基因组编辑做出贡献:它有助于设计分子工具本身(例如,工程化核酸酶和脱氨酶),预测在特定基因组背景下哪些编辑会成功或失败,并自动化实验设计和优化,以减少湿实验室的迭代次数。

  • 从头蛋白质设计 在数百万个蛋白质序列上训练的生成式模型可以提出自然界中不存在的新型类 Cas 蛋白或效应结构域。这些模型推导出序列模式和功能基序,提供候选方案供研究人员随后在细胞中进行测试。
  • 向导 RNA 和编辑器的预测模型: 深度学习分类器和回归模型可以评估向导 RNA 的在靶活性和脱靶风险,并能为先导编辑和碱基编辑器对候选 pegRNA 或碱基编辑窗口进行排序。
  • 实验优化: 机器学习可以建议最有可能在选定细胞类型中发挥作用的试剂浓度、递送形式或 pegRNA 设计,从而将迭代周期缩短数周或数月。

实验室的具体现例

目前已有公开演示证明,AI 设计的编辑系统可以在人类细胞中发挥作用。一家公司在大规模 CRISPR 相关序列集上训练了蛋白质大语言模型,并利用这些模型生成了新型类 Cas 蛋白和配套的向导 RNA;在初步测试中,其 AI 设计的编辑器中至少有一种已被证明能够切割人类 DNA,且具有相当的活性和更高的特异性,该团队已向研究界发布了序列和实验方案材料。

AI 还被用于改进现有的编辑方式。研究人员将蛋白质突变效应预测器与经验筛选相结合,生产出一种 Cas9 变体,该变体显著提高了碱基编辑器在多个靶位点的效率,尤其是在具有挑战性的细胞环境中。这项工作说明了预测加上定向实验室验证如何能快速推动编辑器实现更好的性能。

最近,集成序列和 RNA 二级结构信息的新模型架构(例如使用图神经网络)提高了对不同 CRISPR 系统编辑效率的预测能力。这指向了一个未来,即模型将整合更丰富的生物物理特征,而不仅仅依赖于序列。

模型如何工作(通俗易懂版)

该领域主要由两类机器学习方法主导。第一类是生成式模型——蛋白质语言模型及相关架构——它们从数百万个天然序列中学习统计规则,然后采样出看起来具有功能的新序列。第二类是监督预测模型,它们学习从输入(向导序列、局部 DNA 背景、表观遗传标记)到结果(编辑率、插入缺失谱、脱靶可能性)的映射。

当你想要一种以前从未见过的全新分子时,生成式模型非常有用;当你想要为已知的编辑器从众多候选向导 RNA 或 pegRNA 中做出选择时,预测模型则是最佳选择。在实践中,团队通常将两者结合:生成新的蛋白质变体,然后使用预测模型选择能最大程度确保成功的向导 RNA 和实验条件。

为什么这很重要——速度、规模和新能力

AI 通过三种方式降低了门槛。首先,它提高了速度:计算排序意味着实验室中所需的构建体和细胞转染更少。其次,它扩大了规模:模型可以在几分钟内搜索巨大的序列空间或评估数百万个向导-靶标对。第三,它开启了新的能力——设计具有不同 PAM 偏好、更小体积(便于病毒递送)或改变了免疫原性特征(可能更适合临床治疗)的编辑器。

局限、风险与负责任的测试

尽管前景广阔,但 AI 驱动的设计并不能取代严谨的实验验证。模型从现有数据中学习,当应用于新的细胞类型、物种或递送环境时,数据中的偏见或缺口可能会产生过度自信的预测。脱靶活性、染色质效应和免疫反应仍然是经验性问题,需要通过全基因组检测和动物研究来解决。

此外还存在监管方面的担忧。设计没有自然对应物的全新核酸酶引发了双重用途(dual-use)问题,序列的公开释放必须与社区标准和保障措施相结合。随着更强大的设计系统变得广泛可用,透明的报告、独立重复实验和发表前的风险评估至关重要。周全的许可、监督以及对细胞系或生物体的限制,对于平衡科学开放性与安全性可能是必要的。

该领域如何向前迈进

  1. 建立更大、更高质量的基准数据集,将序列与跨多种细胞类型和递送方法的稳健实验读数联系起来。
  2. 将物理启发模型(结构和热力学)与数据驱动方法相结合,以提高泛化能力。
  3. 采用标准的验证流程——全基因组脱靶检测、免疫原性筛选和可重复的方案——以便对 AI 提案进行客观比较。
  4. 及早让监管机构、伦理学家和公众参与进来,制定确保研究有益且安全的政策。

结论

机器学习正让基因组编辑变得更加智能:它可以构思出新的编辑器,优先选择更好的向导 RNA,并减少失败实验的数量。早期演示表明,AI 设计的编辑器可以在人类细胞中工作,并且机器学习指导的优化改进了碱基编辑和先导编辑等既有模式。然而,模型并非魔术;它们缩短了通往答案的路径,但最终的证明仍有赖于实验。

对于研究人员和政策制定者而言,现在的挑战在于如何利用 AI 的创造力,同时加强技术、伦理和监管架构,以确保基因组编辑安全、公平地推进医学和农业的发展。随着 CRISPR 开启新的篇章,这种创新与责任之间的平衡将决定 AI 会成为可靠的副驾驶,还是意想不到的风险源。

Mattias Risberg

Mattias Risberg

Cologne-based science & technology reporter tracking semiconductors, space policy and data-driven investigations.

University of Cologne (Universität zu Köln) • Cologne, Germany

Readers

Readers Questions Answered

Q AI 如何重塑 CRISPR 工作流程?
A AI 通过在三个领域充当设计伙伴来重塑 CRISPR 工作流程:创建新的分子工具(工程化核酸酶和脱氨酶)、预测特定基因组背景下的编辑是否成功,以及自动化实验设计以减少湿实验迭代。这些能力共同加快了开发速度,扩大了规模,并实现了以前难以实现的编辑。
Q 基因组编辑中有哪些具体的 AI 应用实例?
A 具体示范包括 AI 设计的编辑工具,它们在切割人类 DNA 时具有相当的活性和更高的特异性,同时还向研究界发布了序列和方案。一家公司利用 CRISPR 序列训练了蛋白质语言模型,以生成类 Cas 蛋白和配套的引导 RNA,展示了 AI 驱动设计的实际收益。
Q AI 模型在 CRISPR 设计和预测中是如何工作的?
A 主要有两类模型。生成式模型(如蛋白质语言模型)从海量序列中学习,以提出新的功能分子;预测模型则将引导序列和表观遗传背景等输入映射到编辑率和脱靶风险等结果。团队通常会将两者结合:生成变体,然后预测最佳引导序列和条件。
Q 主要风险和治理考量有哪些?
A AI 驱动的设计不能替代验证。由于数据偏差,模型在新的细胞类型或交付背景下可能会出现过拟合或错误预测。脱靶活性、染色质效应和免疫反应仍然是经验性问题。治理考量包括双重用途风险、开放序列发布、风险评估、独立重复、报告,以及为了平衡安全与开放而可能采取的许可或限制。
Q 为推动该领域发展提出了哪些步骤?
A 进步取决于建立连接序列与各种细胞类型及交付方式下的稳健读数的更大基准数据集,将物理启发模型与数据驱动方法相结合,以及标准化的验证流程。这些流程包括全基因组脱靶分析、免疫原性筛选和可重复的方案,以便在不同实验室之间对 AI 提议进行比较和验证。

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!