科学家们开发出了他们声称的有史以来最有效的数据存储技术,采用了一种新的技术DNA编码方法接近每存储信息的理论最大值核苷酸。
使用一种称为DNA喷泉,研究人员将六个文件压缩到一个 DNA 斑点中——包括一部短片、整个计算机操作系统和一张亚马逊礼品卡——但这只是开始。 该团队表示,同样的技术可以有效地压缩将世界上所有的数据集中到一个房间。
DNA 数据存储不仅能节省空间,而且还能节省空间。 该技术还可以使我们以极其稳健和长久的方式保存知识——这与众所周知的传统技术媒体不同。随着时间的推移,会出现各种各样的毛病。
“DNA 不会像盒式磁带和 CD 那样随着时间的推移而退化,也不会过时——如果确实如此,我们就会遇到更大的问题,”计算机科学家亚尼夫·埃利希 (Yaniv Erlich) 说道来自哥伦比亚大学。
DNA 存储本身并不新鲜,但技术2012年首创哈佛大学的研究人员发明了如何将一本 53,400 字的书压缩成合成 DNA 分子的遗传密码,然后使用 DNA 测序读回数据。
自那以后其他各个团队一直在尝试优化该技术,微软去年声称它提出的一种方法是效率比之前的记录提高了20倍。
反过来,Erlich 和来自纽约基因组中心的研究员 Dina Zielinski 现在表示,他们自己的编码策略比 2012 年标准的效率高 100 倍,并且能够记录单克 DNA 包含 215 PB 数据。
对于上下文来说,仅 1 PB 就相当于13.3年的高清视频,因此,如果您现在想轻蔑地瞥一眼电脑桌上的外部硬盘,我们不会做出判断。
研究人员系统的核心是算法最初设计用于检测和修复流视频应用程序中的错误。
研究人员表示,在读回已转换为二进制数据(由 1 和 0 组成)时,可以使用相同的机制来避免错误。DNA中的四个核苷酸碱基:A、G、C 和 T。
“并非所有 DNA 分子都是平等产生的,”埃利希在会上对德克斯特·约翰逊说道。IEEE 频谱。
“如果你的 DNA 分子具有很长一段相同的核苷酸,例如 AAA,这对信息学机器来说不是很有利。很难不出错地读取这个分子。所以你要避免这样的延伸。 ”
研究人员的算法通过额外编码一系列关于解码后信息应该是什么样子的提示,设法避免读回 DNA 数据时出现错误。
这意味着您不仅可以重新创建在此过程中丢失的任何 DNA 片段– 它也经过高度优化。
“我们证明了我们可以可靠地在 DNA 上存储信息,并且我们的信息组织接近‘最佳包装’,”Erlich 告诉凯瑟琳·林德曼 (Katherine Lindemann)研究之门”,“这意味着几乎不可能在相同数量的 DNA 材料上容纳更多信息。”
为了测试系统,该团队压缩了六个文件:计算机操作系统; 一部 1895 年的法国短片,火车抵达拉西奥塔; 一张 50 美元的亚马逊礼品卡; 一台电脑; A先锋牌匾; 以及信息理论家克劳德·香农的学术论文。
整个包的整体文件大小相对较小,仅为 2MB,但重要的是测试 DNA Fountain 算法是否能够将二进制信息编码为遗传数据,而不会丢失任何信息。
将数字数据(以 72,000 条 DNA 链的列表表示)转换为小瓶中携带的 DNA 分子斑点后,研究人员能够对 DNA 进行测序并以零错误恢复文件。
虽然这是一个令人印象深刻的结果,但该团队表示,存储和读取 DNA 数据的费用对于我们其他人来说还需要一段时间才能有意义。 对于 2MB 的包,研究人员花费了 7,000 美元来合成 DNA,另外花费了 2,000 美元进行测序。
埃利希认为这可能是十多年在 DNA 存储可供公众使用之前。
即便如此,该技术也可能保留用于在医疗系统中记录患者数据等用途,而不是作为最新的科技产品出售给消费者。
“这仍然是 DNA 存储的早期阶段。这是基础科学,”埃利希告诉 Eva Botkin-Kowacki基督教科学箴言报。
“并不是说明天你就要去百思买买你的 DNA 硬盘。”
研究结果报告于科学。