已經進入了基本生物學的新領域:幫助科學家更好地了解蛋白質,生物細胞的主力。
科學家已經發展了兩個新的AI工具來破譯蛋白質研究人員經常被現有檢測方法錯過,3月31日報告自然機器智能。在所有類型的生物樣品中發現這些未知的蛋白質可能是創造更好的癌症治療,改善醫生對疾病的理解以及發現無法解釋的動物能力背後的機制的關鍵。
如果DNA代表有機體的總體規劃,那麼蛋白質是最終的構建,封裝了哪些細胞實際上做和做。與生產蛋白質的DNA藍圖的偏差是常見的:蛋白質可能會發生變化或削減後期製作,並且在許多情況下,管道中有些事情會出現問題,從而導致蛋白質與最初的遺傳示意圖不同。這些意外的“隱藏”蛋白在歷史上很難識別和分析。這就是機器學習工具的來源。
AI模型(稱為Instanovo和Instanovo+)是邁向蛋白質研究的“聖杯”的一步:揭示了蓋瑟斯堡國家標準和技術學院的化學家和蛋白質科學家本傑明·尼利(Benjamin Neely)說,揭開了以前未研究的蛋白質的遺傳認同。
隨著進步和測試的持續,這些工具或類似工具“將變得強大。它將讓我看到我通常看不到的東西,”不參與研究的Neely說。許多非模型生物的研究尚未得到很好的研究,它們的蛋白質分類較差。作為一個假設的Neely,Neely建議新工具可用於找到晦澀的腎臟蛋白,使黃貂魚在鹹水和海洋之間移動。
AI已經改變了研究人員使用稱為AlphaFold的工具。和機器學習 - 權力Neely建議,在2024年獲得諾貝爾獎。填補蛋白質測序的長期空白是該領域的下一個AI飛躍。
Instanovo(In)的結構類似於OpenAI的GPT-4變壓器模型,並經過訓練,可以通過質譜繪製的蛋白質“指紋”的峰和山谷轉化為一串可能的氨基酸。然後,這些氨基酸序列可用於重建和鑑定隱藏的蛋白質。 Instanovo+(in+)是一個擴散模型,其工作原理更像是AI圖像發生器,並且可以採用相同的初始信息並逐漸消除噪聲以產生清晰的蛋白質圖片。
在+ in+是不是第一次嘗試將機器學習應用於蛋白質測序。但是這項新研究表明,近年來,技術已經走了多遠 - 與現實世界的實用程序更加近,這在很大程度上要歸功於擴展蛋白質分析數據庫像蛋白質組工具一樣,可用於訓練AI模型。這些是用於開發和訓練在+中的數據,但是模型的分析範圍超出了現有數據庫中的蛋白質。他們可以建議尚未分類的可能的蛋白質段。
這兩種工具都單獨在一系列測試中都表現出希望先前發布的AI變壓器蛋白解碼器稱為卡薩諾沃(Casanovo)通常用於ID未知蛋白質。在直接的蛋白質測序測試中,模型並不能勝過數據庫搜索,但它們似乎在更複雜的試驗中表現出色。
一個特別具有挑戰性的任務是對人免疫蛋白進行測序,由於其尺寸小和氨基酸組成,因此使用標準方法很難分析它們。研究人員報告說,在發現候選蛋白段的大約是經典數據庫搜索的三倍,從大約10,000個確定的肽到超過35,000。在+中,發現大約是六倍。一起使用,模型的組合性能提供了更大的提升。
根據研究中提出的徹底驗證,專門從事蛋白質分析的Amanda Smythers說,她渴望嘗試這些工具。 Smythers是波士頓Dana-Farber癌症研究所的化學家,他想像使用AI模型回答諸如胰腺癌通常會觸發快速肌肉浪費和疲勞的問題。由癌細胞產生的蛋白質或非癌細胞中正常蛋白質功能的破壞可能有故障。 Smythers說:“這是我們尚不理解的非常重要的生物學。”
將晦澀的蛋白質序列帶到表面(無論是來自癌細胞還是黃貂魚腎臟),可以使可能性或利用有益的治療疾病。
儘管如此,新模型仍有局限性。
Lyngby丹麥技術大學的計算生物工程師Konstantinos Kalogeropoulos表示,研究作者估計的假陽性的可能性估計為5%,這意味著AI輸出需要額外的驗證。以及西雅圖華盛頓大學的計算機科學家和蛋白質組學研究員威廉·諾布爾(William Noble)指出,如何最好地評估這些AI工具仍然是一個懸而未決的問題。
最後,Smythers說,AI測序不是替代數據庫搜索的替代方法。這是一種補充。她說:“從來沒有一個工具適合每項工作。” “但是,正是這樣的工具確實有助於我們進一步進步。”