我們的人類基因組記錄可能仍缺失數以萬計的「黑暗」基因。這些難以檢測的遺傳物質序列可以編碼微小的蛋白質,其中一些與疾病過程有關,例如一個全球研究人員聯盟已經證實了這一點。
它們或許可以解釋為什麼過去對我們基因組大小的估計比 20 年前人類基因組計畫發現的要大得多。
新的國際研究仍在等待,顯示我們的人類基因庫在很大程度上仍然是一項正在進行中的工作,隨著技術的進步,我們發現了更多微妙的遺傳特徵,並且隨著不斷的探索發現。
這些被忽視的基因一直隱藏在我們 DNA 的區域中認為不編碼蛋白質。這些地區但事實證明,這些序列的一小部分仍然被用作微型蛋白質的指令。
系統生物學研究所蛋白質體學家 Eric Deutsch 及其同事透過從 95,520 個實驗的遺傳數據中搜尋蛋白質編碼序列片段,發現了大量的蛋白質。其中包括使用質譜法研究小蛋白質的研究,以及我們自體免疫系統檢測到的蛋白質片段目錄。
這些「黑暗」基因前面沒有啟動讀取蛋白質生成 DNA 指令(表明基因的起點)的眾所周知的長代碼,而是較短的版本,這使得它們容易被科學家忽略。
儘管起始序列中缺少這些部分,但非規範開放閱讀框 (ncORF) 基因仍被用作創建 RNA 的模板,其中一些基因隨後被用來製造僅含有少量氨基酸的小蛋白質。之前的研究已經顯示癌細胞含有數百種這樣的微小蛋白質。
「我們相信這些新確認的 ncORF 蛋白的鑑定非常重要,」該團隊在他們的論文中寫道。 「它們的蛋白質…可能具有直接的生物醫學相關性,這體現在人們對透過癌症免疫療法(包括細胞療法和治療性疫苗)針對此類神秘勝肽的興趣日益濃厚。”
編碼這些神秘勝肽的一些基因是轉座子在我們的基因組中移動,包括序列。
其他的則被研究人員稱為異常的。例如,從質譜證據中已知存在的一些蛋白質僅存在於癌症樣本中,因此它們的相關基因可能不自然地屬於我們的身體。
「因此,某些 ncORF 勝肽仍然有可能反映了異常蛋白質,其存在被認為與規範蛋白質組無關,」Deutsch 和團隊解釋。
在發現的 7,264 組非規範基因中,研究人員發現其中至少四分之一可以產生蛋白質。這相當於將至少 3,000 個新的勝肽編碼基因添加到人類基因組中,研究小組懷疑還有數以萬計的基因,這些基因都被先前的蛋白質組學技術遺漏了。
密西根大學神經腫瘤學家約翰·普倫斯納 (John Prensner) 表示:“並不是每天你都會打開一個研究方向並說‘我們可能為患者提供一類全新的藥物靶點’”告訴伊莉莎白·潘尼西科學。
該團隊開發的工具將幫助其他研究人員繼續發現更多這種暗遺傳物質。
這項研究正在等待同行評審生物Rxiv。