我们的人类基因组记录可能仍然缺失数以万计的“黑暗”基因。这些难以检测的遗传物质序列可以编码微小的蛋白质,其中一些与疾病过程有关,例如一个全球研究人员联盟已经证实了这一点。
它们或许可以解释为什么过去对我们基因组大小的估计比 20 年前人类基因组计划发现的要大得多。
新的国际研究仍在等待,表明我们的人类基因库在很大程度上仍然是一项正在进行中的工作,随着技术的进步,我们发现了更多微妙的遗传特征,并且随着不断的探索发现。
这些被忽视的基因一直隐藏在我们 DNA 的区域中认为不编码蛋白质。这些地区但事实证明,这些序列的一小部分仍然被用作微型蛋白质的指令。
系统生物学研究所蛋白质组学家 Eric Deutsch 及其同事通过从 95,520 个实验的遗传数据中搜索蛋白质编码序列片段,发现了大量的蛋白质。其中包括使用质谱法研究小蛋白质的研究,以及我们自身免疫系统检测到的蛋白质片段目录。
这些“黑暗”基因前面没有启动读取蛋白质生成 DNA 指令(表明基因的起点)的众所周知的长代码,而是较短的版本,这使得它们容易被科学家忽视。
尽管起始序列中缺少这些部分,但非规范开放阅读框 (ncORF) 基因仍被用作创建 RNA 的模板,其中一些基因随后被用来制造仅含有少量氨基酸的小蛋白质。之前的研究已经表明癌细胞含有数百种这样的微小蛋白质。
“我们相信这些新确认的 ncORF 蛋白的鉴定非常重要,”该团队在他们的论文中写道。 “它们的蛋白质……可能具有直接的生物医学相关性,这体现在人们对通过癌症免疫疗法(包括细胞疗法和治疗性疫苗)针对此类神秘肽的兴趣日益浓厚。”
编码这些神秘肽的一些基因是转座子在我们的基因组中移动,包括序列。
其他的则被研究人员称为异常的。例如,从质谱证据中已知存在的一些蛋白质仅存在于癌症样本中,因此它们的相关基因可能不自然地属于我们的身体。
“因此,某些 ncORF 肽仍然有可能反映了异常蛋白质,其存在被认为与规范蛋白质组无关,”Deutsch 和团队解释。
在发现的 7,264 组非规范基因中,研究人员发现其中至少四分之一可以产生蛋白质。这相当于将至少 3,000 个新的肽编码基因添加到人类基因组中,研究小组怀疑还有数以万计的基因,这些基因都被以前的蛋白质组学技术遗漏了。
密歇根大学神经肿瘤学家约翰·普伦斯纳 (John Prensner) 表示:“并不是每天你都会打开一个研究方向并说‘我们可能为患者提供一类全新的药物靶点’”告诉伊丽莎白·潘尼西科学。
该团队开发的工具将帮助其他研究人员继续发现更多这种暗遗传物质。
这项研究正在等待同行评审生物Rxiv。