娜塔·利亚/Shutterstock.com
的问题之一大数据现象正在研究如何为科学家、研究人员、政府和私营公司每天生成的令人难以置信的庞大数据集提供足够的存储空间。
问题是,我们一直在使这种特殊的困境变得更糟,因为我们正在创建和捕获比以往更多的原始数据。 2013年的一项研究发现世界上 90% 的数据仅在前两年就产生了这些信息,这给那些负责确保这一信息浪潮得到妥善保存以供当前和未来用途的人员带来了巨大的后勤挑战。
那么,在产生大量数据方面,谁是最大的罪魁祸首呢? 如果您猜到了 YouTube,那么您就猜对了。 人们每分钟向该服务上传约 300 小时的视频,每年会生成约 100 PB 的数据(即 100,000 TB,如果有帮助的话)。 幸运的是,谷歌并不缺钱,所以它大概有资源来应对洪水。
但其他领域的数据生成器可能没有做好充分准备。 美国冷泉港实验室研究人员的一项新研究表明,基因组学领域是当今世界上增长最快的数据生成器,每天产生的遗传数据量每七个月翻一番。当前利率。
该研究发表于公共科学图书馆生物学,表明到 2025 年,基因组科学家将远远领先于 YouTube 和 Twitter,以及当前科学界的数据霸主:天文学和物理学。 10 年后,遗传学研究人员每年将产生 2 到 40 艾字节的数据,具体取决于翻倍的速度。 (对于那些仍在关注的人来说,1 EB 等于 1,000 PB。)
该研究的合著者迈克尔·沙茨 (Michael Schatz) 表示:“很长一段时间以来,人们一直使用‘天文数字’这个形容词来谈论非常非常巨大的事物。”在新闻稿中。 “但在指出生物科学中数据生成的令人难以置信的增长速度时,我和我的同事建议我们可能需要在未来几年开始将真正巨大的事物称为‘基因组’。”
研究人员表示,目前的基因组数据水平(估计约为 25 PB)是可以管理的,但这主要是因为相对较少的人进行了基因组测序。 有迹象表明这种情况即将改变,预计未来十年将有多达 10 亿人完成全基因组测序,其中大部分在富裕国家。
虽然基因组研究带来的医疗益处预计将在这段时间内提供一些令人惊叹的健康解决方案,但听起来数据科学家面临的问题才刚刚开始。
“基因组学在很多方面都是一门改变游戏规则的科学,”沙茨说。 “我和我的同事说,思考未来很重要,这样我们才能做好准备。”