DNA“磁带”可存储拍字节数据,寿命长达千年

科学
DNA 'Cassette Tape' Stores Petabytes, Lasts Millennia
一支中国团队开发出了一款工作原型,通过将合成 DNA 打印在长塑料带上,并利用类磁带驱动器检索文件;该技术有望实现拍字节级存储密度和数百年至数千年的保存寿命,但目前仍受限于缓慢且昂贵的 DNA 合成与测序过程。

塑料薄膜、打印的 DNA 和复古驱动器:新型原型

在中国的一家实验室里,研究人员将两种截然不同的信息技术时代结合在了一起:DNA 的分子记忆与磁带盒的机械便利性。该团队将简短的合成 DNA 链打印在柔性的聚酯-尼龙薄膜上,将条带卷入磁带盒中,并制造了一个小型驱动器。该驱动器可以扫描条形码轨道,将特定点位浸入溶液中,并回收 DNA 以进行测序,最后将其重新解码回文件。

其结果是一个可以运行的概念验证,研究人员将其描述为“用于 DNA 数据存储的紧凑型磁带”。该实验证明,DNA 可以被组织在长的、可寻址的介质上,并能通过自动化的、类似于磁带的动作进行访问,而不仅仅是将 DNA 存储在试管或瓶子中——作者表示,这一步使得该介质作为文件系统更易于使用。

该系统如何编码、保护和查找文件

其流程遵循其他 DNA 存储研究的熟悉模式:数字文件被翻译成四个核苷酸“字母”(A、T、C 和 G)的序列;这些合成序列以微小液滴的形式沉积到条带上带有条形码标记的微型隔室中;一种保护壳——结晶金属有机涂层——负责保存这些脆弱的分子,直到需要它们为止。为了读取文件,驱动器会定位条形码,应用温和的化学物质从该隔室中释放 DNA 链,将其送入测序仪,并将返回的碱基判读(base-calls)翻译回比特和字节。

这种架构带来了多项实际益处。条形码让驱动器能够像图书馆索引系统一样定位单个文件,而晶体涂层可以防止 DNA 的化学降解,这让研究人员能够主张其具有较长的存储寿命。该原型还支持覆盖和修复:可以使用酶来去除旧链并沉积新链,团队在驱动器内部展示了简单的自主回收和重新沉积步骤。

密度与寿命:核心数据

这些数据非常引人注目。团队报告的理论存储密度经过推算,每公里磁带可达数百 PB(Petabytes)——这些数字转化到 100 米长的磁带盒上即为数十 PB。作者和报道机构使用了诸如“足以容纳数十亿首歌曲”之类的对比,以提供直观的规模感。这些容量估算依赖于许多可寻址点位的密集排列,以及每个序列的多个副本以防止数据丢失。

保护至关重要,因为 DNA 化学性质在环境温度下会缓慢但稳定地衰变。由于原型中使用了沸石咪唑酯骨架(ZIF)或类似的金属有机框架装甲,团队预计在室温下的寿命可达数百年。在冷藏条件下——例如接近 0 °C——衰变速率会显著放缓,一些公开报道中提到的推算暗示,在深冷条件下保存时间可达数千至数万年。这些较长的数字应被视为基于模型的预测,而非实测结果:它们来自于将标准的化学衰变数学模型应用于作者进行的加速老化和稳定性测试。

原型性能:验证与生产

重要的注意事项将这些易于宣传的容量和寿命数字与实际现实区分开来。该设备是一个实验室演示装置,而非商业产品。在团队的实验中,系统写入并回收了适度的测试文件——大小在几百 KB 左右——每个完整的“写-读-重写”周期需要几分钟到几小时,这主要是因为创建和读取 DNA 的化学步骤仍然缓慢且昂贵。关于该研究的独立报道总结了一项早期演示,该演示存储了一个约 156.6 KB 的文件,并描述在优化前,完整周期需要耗时数十分钟到一小时以上。这些速率意味着该原型的写入速度最高也仅在“每小时 KB”级别,远慢于任何传统的硬盘或磁带库。

换句话说,该系统目前在原理上的优势在于密度和耐用性,而非吞吐量。驱动器的机械部分——条形码扫描仪和磁带处理——可以在条带上非常快速地寻址,但瓶颈在于分子层面:合成定制的 DNA 序列(写入)并将其测序回数字比特(读取),其速度仍比基于硅的存储操作慢几个数量级,成本也高出几个数量级。

该技术在存储生态系统中的位置

研究人员将 DNA 磁带定位为归档级“冷”存储(极少访问但希望保留数十年或数世纪的文件)与偶尔读取或更新的“温”存储之间的潜在桥梁。如果合成和测序成本下降且速度提高,可寻址的 DNA 磁带就有可能与磁带盒一起存放在大型磁带库中,为世界文化和科学遗产提供一种超低功耗、长期的介质。目前,这项技术似乎与那些视长久性高于即时访问速度的机构最为相关:博物馆、国家档案馆和某些科学数据集。

未参与该研究的专家提醒,在该构想变得实用之前,DNA 合成和测序技术的快速进步是必不可少的。自动化分子工作流程——这是本文的核心进展——迈出了一大步,但它不会在一夜之间改变基础经济学。基于这些原因,团队和外部评论人士将这项工作描述为一种重要的平台技术,而非硬盘或云数据中心的近期替代品。

实际障碍与下一步工作

  • 速度与成本: 合成 DNA 的制造成本仍然很高,且大规模生产速度缓慢。在改变这一现状之前,该介质将更适合归档用途,而非高吞吐量的日常存储。
  • 标准化: 广泛使用将需要商定的格式和跨兼容的驱动器,以便今天制造的 DNA 磁带在几十年后仍能被读取。
  • 寿命验证: 关于千年级保存的主张依赖于衰变模型和加速测试;需要更长的时间实时实验和标准化的加速老化协议,才能对多千年的保留能力产生信心。
  • 政策与生物安全: 将任意数据存储为 DNA 会引发明显的治理问题,涉及监督、溯源以及良性合成链与生物制剂之间的界限;这些讨论需要与技术开发同步进行。

DNA 磁带项目代表了一个更大的趋势:工程师们正越来越多地借用生物学方案来解决信息技术问题。DNA 天然的密度和无需能源的稳定性(一旦写入并密封)使其成为长期档案的极具吸引力的候选者;磁带盒格式提供了一个熟悉的、低功耗的机械接口,有朝一日可能会嵌入到类似于图书馆的数据托管生态系统中。

就目前而言,这款新设备最好被视为一个具有明显优势和局限性的惊人演示。它表明,便携式条带上打印的、可寻址的 DNA 可以被定位、读取、修改和重新密封——这是一个缩微版的分子文件系统——但它也凸显了在 DNA 存储从实验室奇闻走向基础设施之前,必须解决的那些棘手的、限制速率的化学难题。未来几年将决定更快的合成、更便宜的测序和稳健的标准是否能让这一构想成为存储人类最宝贵档案的实用选择。

来源

  • Science Advances(研究论文:"A compact cassette tape for DNA‑based data storage", DOI: 10.1126/sciadv.ady3406)
  • 南方科技大学(研究团队负责人:蒋兴宇;通信单位)
  • 上海交通大学(合作实验室)
James Lawson

James Lawson

Investigative science and tech reporter focusing on AI, space industry and quantum breakthroughs

University College London (UCL) • United Kingdom

Readers

Readers Questions Answered

Q DNA 磁带盒存储系统是如何对数据进行编码、保护和检索的?
A 该系统使用 A、T、C 和 G 将数字文件编码为 DNA 序列,并将这些 DNA 链以液滴的形式存入柔性薄膜上带有条形码标记的隔间中。一种结晶金属有机涂层负责保护这些片段。读取时,驱动器会定位条形码,释放 DNA 链,对其进行测序,并将结果转换回数字数据。
Q 该原型机在存储密度和寿命方面有哪些宣称?
A 存储密度声称可达每公里磁带数百 PB,通过高密度存储点和备份副本,这相当于一个 100 米长的磁带盒可存储数十 PB。在金属有机涂层的帮助下,寿命预估显示在室温下可保存数百年,在接近 0 °C 时可保存数千至数万年;这些是基于模型的推算,而非直接测量。
Q 目前的性能和成本限制有哪些?
A 该原型是实验室演示,而非商业产品。它目前写入和读取的是较小的文件(约为几百 KB 级别),完整的写入-读取-重写周期需要数分钟到数小时。由于与硅基存储相比,DNA 合成和测序既缓慢又昂贵,其吞吐量目前仍维持在每小时几 KB 的水平。
Q 这种 DNA 磁带盒在存储生态系统中可能处于什么位置,还面临哪些障碍?
A 专家认为 DNA 磁带盒是归档冷存储与偶尔进行的温访问之间的桥梁,未来可能与大型库中的磁带存储并列。实现这一愿景需要更快、更便宜的合成与测序技术、标准化以及可扩展的自动化;就目前而言,它是一项重要的平台技术,而非硬盘或云存储的近期替代品。

Have a question about this article?

Questions are reviewed before publishing. We'll answer the best ones!

Comments

No comments yet. Be the first!