生物体的基因组是其发育、功能和繁殖所需的一组 DNA 指令。当今生物体的基因组包含其进化路径的信息,该路径始于?第一个普遍共同祖先? 地球上所有生命的最终产物就是该生物。
生物体的基因组中编码有能够揭示其与祖先和亲属之间的联系的信息。
基因组的其他维度
我们的研究探索了生物体基因组可能包含其他类型信息的假设,超越谱系或分类学。我们问:生物体的基因组是否包含可以让我们确定生物体所处环境类型的信息?
在特立尼达和多巴哥的沥青湖等环境中也发现了极端微生物,那里是世界上最大的沥青矿床。
图片来源:Anton_Ivanov/Shutterstock.com
尽管这看起来不太可能,但我们滑铁卢大学和西部大学的计算机科学和生物学研究团队发现,极端微生物确实存在这种情况——极端微生物是指在极端恶劣条件下生存和繁衍的生物。这些环境条件包括极热(超过 100°C)到极寒(低于 -12°C)、高辐射或极端酸度或压力。
DNA 是一种语言
我们将基因组 DNA 视为用“DNA 语言”编写的文本。DNA 链(或 DNA 序列)由一系列称为核苷酸的基本单位,由糖磷酸骨架连接在一起。DNA 单元有四种:腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶(A、C、G、T)。
从抽象角度来看,DNA 序列可以看作一行文本,用 DNA 字母表中的字母书写。例如,“CAT”是三个字母的“DNA 词”,对应于三单元 DNA 序列胞嘧啶-腺嘌呤-胸腺嘧啶。
在 20 世纪 90 年代,人们发现计数发生次数从生物体基因组中提取的短 DNA 序列中,有这么多的 DNA 词,我们就可以识别生物的种类以及它与进化过程中其他生物的关联程度?生命之树.?
这种基于 DNA 字数对生物体进行识别或分类的机制类似于我们区分英文书和法文书的过程:从每本书中抽出一页,我们会注意到英文文本中多次出现三个字母的单词“the”,而法文文本中多次出现三个字母的单词“les”。
请注意,每本书的词频分布并不取决于我们选择阅读的特定页面,也不取决于我们考虑的是多页、单页还是整章。同样,基因组中 DNA 词的频率分布也不取决于选择用来代表该基因组的 DNA 序列的位置和长度。
DNA 链由一系列基本单位组成:腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶(ACGT)。
图片来源:ktsdesign/Shutterstock.com
DNA 词频图谱可作为生物体的“基因组特征”,这是一个重大发现,迄今为止,人们认为基因组的 DNA 词频图谱仅包含与生物体所属的物种、属、科、目、纲、门、界或域有关的进化信息。
我们的团队开始研究基因组的 DNA 词频图谱是否可以揭示其他类型的信息?例如,有关微生物嗜极生物所生存的极端环境类型的信息。
环境印记在嗜极生物DNA中
我们使用了 700 个极端微生物的数据集,这些微生物生活在极端温度(极热或极冷)或极端 pH 条件(强酸性或碱性)下。我们同时使用了监督机器学习和无监督机器学习计算方法来检验我们的假设。
在两种环境条件下,我们发现我们可以清楚地检测到环境信号,表明特定生物所栖息的极端环境类型。
在无监督机器学习的情况下,会向“盲”算法提供一组极端微生物 DNA 序列(没有关于其分类或生存环境的其他信息)。然后要求该算法根据其在 DNA 词频图谱中找到的相似性将这些 DNA 序列分组。
我们原本以为,通过这种方式发现的所有菌群都会符合分类学的规律:细菌与细菌归为一类,古菌与古菌归为一类。令我们大吃一惊的是,情况并非总是如此,无论我们使用何种算法,有些古菌和细菌总是被归为一类。
唯一明显的共同点可以解释它们被多种机器学习算法认为是相似的,那就是它们都是嗜热的极端微生物。
令人震惊的发现
这生命之树,生物学中使用的概念框架代表家谱关系物种之间,有三个主要分支,称为域:细菌、古细菌和真核生物。
真核生物是具有膜结合细胞核的生物,该领域包括动物、植物、真菌和单细胞微观原生生物。相比之下,细菌和古细菌是单细胞生物,没有包含基因组的膜结合细胞核。细菌与古细菌的区别在于其细胞壁的组成。
生命树的示意图,其中主要域,古菌和细菌,分别以紫色和蓝色显示,次要域,真核生物,以绿色显示。
生命的三个领域彼此之间存在着巨大的差异,从基因上讲,细菌与古菌的区别就像北极熊(真核生物)与大肠杆菌(细菌)。
因此,我们预期,无论以何种基因组相似性度量,细菌和古菌的基因组在任何聚类中都会相距尽可能远。我们发现一些细菌和古菌聚在一起,显然只是因为它们都适应极端高温,这意味着它们所处的极端温度环境导致其基因组语言发生普遍、全基因组、系统性的变化。
这一发现类似于在基因组已知的分类学维度之外发现了一个全新的维度,即环境维度。
其他环境对基因组的影响
这一发现不仅出乎意料,还可能对我们理解地球生命的进化产生影响,并指导我们思考在外太空生存需要什么。
疯狂火球菌,一种嗜热古菌,令人惊讶的是,它被归类为嗜热细菌。
事实上,我们正在进行的研究正在探索抗辐射极端微生物基因组特征中是否存在环境信号,例如耐辐射奇球菌能够经受住辐射照射,并且寒冷的,脱水,真空条件和酸,并被证明能够在外层空间长达三年。