2022 年,第一个完整、无间隙的人类基因组被发现,标志着人类遗传学的一个重要时刻。在向公众发布时,科学家们描述了对超过 60 亿个碱基对基因组进行测序的艰苦工作,在这项新研究中增加了 2 亿个碱基对。新的基因组添加了 99 个可能编码蛋白质的基因和 2000 个以前未知的候选基因。现在,可以使用了供所有人查看。
许多人会问:“等等,我们不是已经对人类基因组进行了测序吗?”在某种程度上,是的——2000 年,人类基因组测序联盟发布了人类基因组的第一份草稿,这些结果随后为当今人类遗传学的几乎所有方面铺平了道路。
自 2013 年以来,最新的人类基因组草图一直被用作参考。但由于测序技术不切实际,这些草图遗漏了 DNA 中最复杂的区域,这些区域约占整个基因组的 8%。这是因为这些序列是高度重复的,并且包含许多重复的区域——试图将它们放在正确的位置就像试图完成一个拼图游戏,其中所有的碎片都是相同的形状并且正面没有图像。由于大的重复序列的长间隙和代表性不足,使得这种遗传物质在过去 20 年中一直被排除在外。科学家们必须想出更准确的测序方法来照亮基因组最黑暗的角落。
“我们已经 20 多年未能研究的人类基因组的这些部分对于我们了解基因组如何工作、遗传疾病以及人类多样性和进化非常重要,”说加州大学圣克鲁斯分校生物分子工程助理教授 Karen Miga科学去年。
与人类基因组测序联盟非常相似,新的参考基因组(称为 T2T-CHM13)是由 Telomere-2-Telomere Consortium 产生的,该联盟的一组研究人员致力于最终将每条染色体从一个端粒映射到另一个端粒。 T2T-CHM13 现已在UCSC 基因组浏览器供每个人享用,称赞标准人类参考基因组 GRCh38。
如果您不相信,这是纸质形式的 HGSC 参考基因组。每个数字都是一条染色体,字体是4.5号,几乎难以辨认。图片来源:widdowquinn/Flickr CC BY-NC-SA 2.0
新的参考基因组是使用两种现代测序技术创建的,称为牛津纳米孔和PacBio 高保真音响超长读测序,大大增加了可读取的DNA长度,同时也提高了准确性。通过这种方式,他们可以对以前通过更基本的技术无法读取的 DNA 字符串进行测序,同时纠正以前参考基因组中存在的一些结构错误。
展望未来,该联盟希望添加更多参考基因组作为人类泛基因组参考联盟的一部分,以改善人类遗传学的多样性,这是目前非常缺乏的。
“我们正在添加第二个完整的基因组,然后还会有更多,”加州大学圣克鲁斯分校基因组研究所所长 David Haussler 说。
“下一阶段是考虑人类基因组的参考不是单一的基因组序列。这是一个深刻的转变,是一个新时代的预兆,在这个新时代中,我们最终将以公正的方式捕捉人类的多样性。”
本文的早期版本是2022 年 3 月。