DNA:数据存储的终极方案

文章正文
发布时间:2024-08-24 21:19

在这个充斥着数据的世界里,在何处以何种方式更加有效和便宜地存储数据,成为了一个日渐重要的问题。众多方案中最异想天开的方案,可能正是最好的方案:将信息归档存储到DNA分子中。

普遍使用的长期冷存储方法可以追溯到20世纪50年代,这种方法将数据写入比萨饼大小的磁带卷轴中。相比之下,DNA存储技术具有更便宜、更节能、更持久的应用潜力。研究表明,用盐适当封装的DNA在室温下可以稳定存储长达数十年,在环境受控的数据中心则可以存储更长时间。DNA不需要维护,而且存储在DNA中的文件很容易复制,成本可以忽略不计。

更奇妙的是,DNA可以在难以置信的微小体积中归档惊人的信息量。设想一下:到2025年,人类将产生约33皆字节的数据,即3.3之后有22个零。DNA存储可以将所有这些信息压缩进一个乒乓球,并且还留有剩余的空间。美国国会图书馆中74万亿字节的信息可以被塞进一个罂粟种子大小(比DNA大6000倍)的DNA档案中。把这个种子分成两半,你就可以储存来自Facebook的所有数据。

这只能在科幻小说中实现吗?很难说。DNA存储技术今天已经存在,但为了使其可行,研究人员必须解决一些令人生畏的技术难题,这些难题主要围绕多种技术的整合问题。作为推进这项工作的主要合作者之一,我们在Los Alamos国家实验室的团队已经开发出了实现分子存储的关键技术。我们的软件—自适应性DNA存储法典(ADS Codex),可以将数据文件从计算机语言—充满0和1的二进制语言,翻译成生物学能够理解的四字母代码。

ADS Codex是情报高级研究计划活动(IARPA)分子信息存储(MIST)项目的一个关键部分。MIST旨在为政府和私营部门的大数据业务带来更便宜、更大、更持久的存储方式,其短期目标是在24小时内以1,000美元的成本写入1太字节—也就是一万亿字节,并同时读取10太字节。

从计算机代码到遗传代码

当大多数人提到DNA时,他们想到的是生命,而非计算机。但DNA本身就是一个用于传递生物体遗传信息的四字母代码。DNA分子由四种类型的碱基或核酸组成,每种碱基都有一个字母标识:腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)和胞嘧啶(C)。它们是所有DNA代码的基础,为地球上所有生物的构建提供指令。


图2 从计算机代码到遗传代码(图片来源:Pixabay)

作为一项为人熟知的技术,DNA合成已被广泛用于医学、制药和生物燃料开发等领域,而这些只是其中的一些应用而已。该技术将碱基组织成不同的排列,并用特定的A、C、G、T顺序来表示。这些碱基以扭曲的链条相互缠绕,形成我们熟悉的双螺旋结构,也就是DNA分子。这些字母排列形成的序列创造了一个代码,来告诉有机体如何组织排列。

整套DNA分子构成了基因组—也就是我们身体的蓝图。通过合成DNA分子—完全从头开始构筑—研究人员发现他们可以指定或写入一长串的A、C、G和T,然后回读这些序列。这个过程类似于计算机对二进制信息的存储。从这个点出发,将二进制计算机文件编码到分子中只是一个简短的概念步骤。

该方法已被证明是有效的,但目前读写DNA编码的文件需要很长的时间。在DNA上添加一个碱基需要大约一秒钟。以这种速度编写一个档案文件可能需要几十年,但研究人员正在开发更快的方法,包括可以一次性写入多个大分子的大规模平行操作。

无所不包的翻译过程

ADS Codex能准确地告诉人们如何将零和一转换为由A、C、G和T四个字母组合的序列,还可以将DNA序列解码回二进制序列。DNA可以通过多种方法合成,而ADS Codex适用于所有这些方法。

不幸的是,与传统的数字系统相比,使用DNA合成技术向分子存储、写入信息时的错误率非常高。这些错误的来源与数字世界中的不同,这使得纠正它们更难。在数字硬盘上,二进制错误发生在零向一翻转或者一向零翻转的时候。而对于DNA,问题来自于插入和删除错误。例如,你可能在写A-C-G-T,但当你试图写A,什么也没有出现,因而所有字母都向左移动,或者你打出了AAA序列。

 


图3 DNA合成技术(图片来源:Unsplash)

普通的代码错误修正并不能很好的解决这类问题,所以ADS Codex增加了代码错误检测,来验证数据。当软件将数据转换为二进制时,它会检测代码是否匹配。如果不匹配,它就删除或增加碱基—也就是字母,直到验证成功。

智能规模扩充

我们已经完成了ADS Codex的1.0版本,今年年底我们计划用它来评估其他MIST团队所开发的存储和检索系统。这项工作非常符合Los Alamos在计算方面开拓新发展的历史,这也是国家安全任务的一部分。自20世纪40年代以来,作为计算技术进步的成果,我们已经积累了一些最古老且最大的纯数字数据库。它仍然具有巨大的价值。正因为我们永久地保存数据,所以在寻找冷存储方案的问题上,我们长期以来处于领先地位,但我们并不孤单。

世界上所有的数据—包括你拥有的所有的数字照片和推特,全球金融业的所有记录,所有那些关于耕地、军队运动和冰川融化的卫星图像,所有现代科学的基础模拟,以及更多的数据—都必须存储于某处。数据领域的“云”不是真的云。它是巨大仓库中的数字化中心,消耗大量的电力来存储(并保持冷却)数万亿字节的数据。这些数据中心的建设、供电和运行成本高达数十亿美元,但随着数据存储需求持续性的指数增长,这些数据中心可能难以为继。

DNA显示出的巨大前景可能满足全世界对数据存储的贪婪欲望。这项技术需要新的工具和对熟悉方法的新运用。但如果有一天,世界上最有价值的档案在罂粟籽大小的分子集合中找到了新家,请不要感到惊讶。

撰文:Latchesar Ionkov,计算机科学家,Los Alamos国家实验室ADS Codex项目的首席研究员;Bradley Settlemyer,Los Alamos国家实验室存储系统研究员和系统程序员,专门从事高性能计算。