人工智能正在幫助科學家解碼以前難以理解的蛋白質
這些工具可以幫助發現更好的癌症治療方法、闡明罕見疾病等
用於檢測和描述以前未發現的蛋白質的新人工智能工具有可能改善疾病治療並增強我們的基礎生物學知識。
安妮卡特琳·柯克特普-默勒
進入了基礎生物學的新領域:幫助科學家更好地了解蛋白質,即活細胞的主力。
科學家們已經研製出兩種新的人工智能工具來破譯蛋白質研究人員於 3 月 31 日報告稱,現有的檢測方法經常會漏掉自然機器智能。在所有類型的生物樣本中發現這些未知的蛋白質可能是創造更好的癌症治療方法、提高醫生對疾病的理解以及發現無法解釋的動物能力背後的機制的關鍵。
如果 DNA 代表有機體的總體規劃,那麼蛋白質就是最終的構建,封裝了細胞的結構實際上製作並做。偏離製造蛋白質的 DNA 藍圖的情況很常見:蛋白質在生產後可能會發生改變或削減,並且在許多情況下,生產過程中會出現問題,導致蛋白質與最初的遺傳圖不同。這些意想不到的“隱藏”蛋白質歷來很難讓科學家識別和分析。這就是機器學習工具發揮作用的地方。
馬里蘭州蓋瑟斯堡國家標準與技術研究所的化學家兼蛋白質科學家本傑明·尼利 (Benjamin Neely) 表示,名為 InstaNovo 和 InstaNovo+ 的人工智能模型是朝著蛋白質研究“聖杯”邁出的一步:揭開之前未研究過的蛋白質的遺傳特性。
隨著不斷的進步和測試,這些工具或類似的工具“將會變得非常強大。它會讓我看到我通常看不到的東西,”尼利說,他沒有參與這項研究。許多非模式生物尚未得到充分研究,它們的蛋白質也很少被編目。作為一個假設,尼利建議新工具可用於尋找不為人知的腎臟蛋白質,這些蛋白質允許黃貂魚在鹹水和海洋之間移動。
人工智能已經改變了研究人員的工作方式使用名為 AlphaFold 的工具。以及機器學習驅動的於 2024 年獲得諾貝爾獎。 Neely 表示,填補蛋白質測序領域長期存在的空白將成為該領域人工智能的下一個飛躍。
InstaNovo (IN) 的結構與 OpenAI 的 GPT-4 變壓器模型類似,經過訓練可將通過質譜繪製的蛋白質“指紋”的峰谷轉換為一串可能的氨基酸。然後可以使用這些氨基酸序列來重建和識別隱藏的蛋白質。 Instanovo+ (IN+) 是一種擴散模型,其工作方式更像是 AI 圖像生成器,並且準備獲取相同的初始信息並逐步消除噪聲以生成清晰的蛋白質圖像。
IN 和 IN+ 是不是第一次嘗試將機器學習應用於蛋白質測序。但這項新研究表明,這項技術近年來已經取得了多麼大的進步——越來越接近現實世界的實用性,這在很大程度上要歸功於擴大蛋白質分析數據庫比如Proteome Tools,它可以用來訓練人工智能模型。這些是用於開發和訓練 IN 和 IN+ 的數據,但模型的分析範圍超出了現有數據庫中的蛋白質。他們可以提出尚未編目的可能蛋白質片段。
與結果相比,這兩種工具在一系列測試中都顯示出了良好的前景之前發布的 AI Transformer 蛋白質解碼器叫卡薩諾沃,來自最常用於識別未知蛋白質。在簡單的蛋白質測序測試中,這些模型的表現並不優於數據庫搜索,但它們似乎在更複雜的試驗中表現出色。
一項特別具有挑戰性的任務是對人類免疫蛋白進行測序,由於其尺寸和氨基酸組成較小,因此很難用標準方法進行分析。研究人員報告說,IN 發現的候選蛋白質片段數量大約是傳統數據庫搜索的三倍,從大約 10,000 個已識別的肽增加到超過 35,000 個。 IN+ 的發現量大約是原來的六倍。一起使用時,這些模型的綜合性能可提供更大的提升。
根據研究中提出的徹底驗證,專門從事蛋白質分析的阿曼達·斯邁瑟斯 (Amanda Smythers) 表示,她很想嘗試這些工具。 Smythers 是波士頓達納法伯癌症研究所的化學家,他設想使用人工智能模型來回答諸如為什麼胰腺癌通常會引發快速肌肉萎縮和疲勞等問題。癌細胞產生的蛋白質或非癌細胞中正常蛋白質功能的破壞可能是錯誤的原因。 “這是我們還不了解的非常重要的生物學部分,”斯邁瑟斯說。
將模糊的蛋白質序列帶到表面(無論它們是來自癌細胞還是黃貂魚腎)可能使以下可能性成為可能:或利用有益的物質來治療疾病。
不過,新模型也有局限性。
研究作者估計,誤報的可能性約為 5%,這意味著人工智能輸出需要額外的驗證,共同作者、林比丹麥技術大學的計算生物工程師康斯坦丁諾斯·卡洛格羅普洛斯 (Konstantinos Kalogeropoulos) 表示。 Casanovo 的開發者、西雅圖華盛頓大學的計算機科學家和蛋白質組學研究員 William Noble 指出,如何最好地評估這些人工智能工具仍然是一個懸而未決的問題。
最後,Smythers 表示,人工智能測序並不能取代數據庫搜索。這是一個補充。 “從來沒有一種工具適合每項工作,”她說。 “然而,正是這樣的工具真正幫助我們在該領域取得進一步進展。”









