目前,在地球上,大约有10万亿千兆字节的数字数据,每天,人类会产生电子邮件,照片,推文和其他数字文件,这些文件总计还有250万GB的数据。这些数据中的大部分存储在称为Exabyte数据中心的巨大设施中(Exabyte为10亿GB),这可能是几个足球场的规模,建造和维护约为10亿美元。
许多科学家认为,另一种解决方案在于包含我们遗传信息的分子:脱氧核糖核酸,它演变为以非常高的密度存储大量信息。马克·巴斯(Mark Bathe)说,一个充满DNA的咖啡杯可以存储世界上所有数据生物工程。
Bathe说:“我们需要新的解决方案来存储世界正在积累的大量数据,尤其是档案数据。”“ DNA比闪存的千倍更密集,另一个有趣的属性是,一旦您制作了DNA聚合物,它就不会消耗任何能量。您可以写入DNA,然后将其永远存储。”
科学家已经证明他们可以将文本的图像和文本编码为DNA。但是,也需要一种简单的方法来从许多DNA的混合物中挑选所需的文件。Bathe和他的同事现在已经证明了一种方法来做到这一点,将每个数据文件封装成二氧化硅的6微米粒子,该二氧化硅粒子上标有简短的DNA序列,这些序列揭示了内容物。
使用这种方法,研究人员证明他们可以准确地从一组20张图像中拔出作为DNA序列的单个图像。考虑到可以使用的可能标签数量,此方法最多可以扩展1020个文件。
稳定存储
数字存储系统将文本,照片或任何其他类型的信息编码为0s和1s。可以使用构成遗传密码的四个核苷酸来编码相同的信息:A,T,G和C。例如,G和C可以用来表示0,而A和T表示1。
DNA还有其他几个功能,使其成为一种存储介质:它非常稳定,并且合成和顺序相当容易(但昂贵)。同样,由于其高密度(核苷酸)(相当于最多两个)的核苷酸约为1立方体纳米 - 作为DNA存储的数据可以放在您的手掌中。
这种数据存储的一个障碍是合成如此大量DNA的成本。目前,编写一台数据(100万GB)将花费1万亿美元。为了与磁带竞争,通常用于存储档案数据,BATHE估计DNA合成的成本将需要下降约六个数量级。巴斯说,他预计这将在十到十年之内发生,类似于在过去的几十年中,在闪存驱动器上存储信息的成本急剧下降。
除了成本外,使用DNA存储数据的另一个主要瓶颈是很难从其他所有内容中挑选您想要的文件。“假设写作DNA的技术达到了在DNA中写下exabyte或zettabyte的成本效益,那么什么?电影和其他东西,您需要找到所要寻找的一张图片或电影。”巴斯说。“这就像试图在干草堆里找到一根针一样。”
目前,使用PCR(聚合酶链反应)检索DNA文件。每个DNA数据文件都包含一个与特定PCR引物结合的序列。为了拔出特定文件,将底漆添加到样品中以查找和放大所需序列。但是,这种方法的一个缺点是,底漆和脱靶DNA序列之间可能存在串扰,从而导致不需要的文件被拉出。同样,PCR检索过程需要酶,最终需要消耗池中的大多数DNA。
沐浴说:“您有点燃烧干草堆来找到针头,因为其他所有DNA都没有放大,并且基本上将其扔掉。”
文件检索
作为另一种方法,麻省理工学院团队开发了一种新的检索技术,该技术涉及将每个DNA文件封装到一个小二氧化硅粒子中。每个胶囊都用单链DNA“条形码”标记,与文件的内容相对应。为了以具有成本效益的方式证明这种方法,研究人员将20个不同图像编码为约3,000个核苷酸的DNA部分,这相当于约100个字节。(他们还表明,胶囊可以将DNA文件适合大小的千兆字节。)
每个文件都标有与“ CAT”或“飞机”等标签相对应的条形码标签。当研究人员想拔出特定图像时,他们会删除DNA的样本,并添加与他们要寻找的标签相对应的引物,例如,“ CAT”,“ Orange”和“ Wild”以获取图像老虎,“猫”,“橙色”和“家用”的房屋。
引物用荧光或磁性颗粒标记,使其易于拔出并识别样品中的任何匹配。这允许将所需的文件删除,同时将其余的DNA完好无损地放回存储中。他们的检索过程允许布尔逻辑陈述(例如“总统和18世纪”)产生乔治·华盛顿(George Washington),类似于Google Image搜索所检索的内容。
“以概念验证证明的当前状态,我们的搜索率为每秒1千字节。我们的文件系统的搜索率由人均数据大小确定,目前,该搜索率受到限制的限制100兆字节的DNA数据以及我们可以并行使用的分类器数量。如果DNA合成变得足够便宜,我们将能够最大限度地利用我们可以使用方法存储的数据大小,”说。
对于其条形码,研究人员使用了来自100,000个序列的库中的单链DNA序列,每个序列长约25个核苷酸,由哈佛医学院的遗传学和医学教授Stephen Elledge开发。如果将这些标签中的两个放在每个文件上,则可以唯一标签1010(100亿)不同的文件,每个文件上有四个标签,您可以唯一地标记1020个文件。
BATHE设想这种DNA封装对于存储“冷”数据可能很有用,即保存在存档中并且不经常访问的数据。他的实验室正在启动一家初创企业Cache DNA,该公司现在正在开发用于长期存储DNA的技术,既可以长期存储DNA数据存储,又是临床和其他先前存在的DNA样品。
“虽然可能需要一段时间的DNA作为数据存储介质,但如今已经有紧迫的需求,用于低成本,大量的存储解决方案,用于先前存在的DNA和RNA样品。新冠肺炎测试,人类基因组测序和其他基因组学领域,” Bathe说。
该研究出现在自然材料。
资源:麻省理工学院