現在,研究人員可以獲得AI幫助合成蛋白質。 (ko_feja/e+/getty圖像)
合成新蛋白質 - 生物學生活 - 是一個巨大潛力的科學領域,新開發的AI模型有望為超出自然中發現的新蛋白質創建指令。
美國的科學家使用了EvolutionaryScale Model 3(ESM3)來合成一種稱為ESMGFP(綠色熒光蛋白)的新蛋白tagrfp。
研究團隊估計,這相當於AI處理的5億年進化,這為創建可以設計用於特定用途的定制蛋白質開闢了道路,或者從現有蛋白質中解釋了更多功能。
“超過30億年的進化產生了編碼自然蛋白空間的生物學形象,”寫由紐約EvolutionaryScale的創始人托馬斯·海斯(Thomas Hayes)領導的研究人員在發表的論文中。
“在這裡,我們表明,對進化數據進行大規模訓練的語言模型可以生成遠離已知蛋白質的功能蛋白。”
我很高興分享我們一直在做的事情@evoscaleai。 ESM3是用於編程生物學的多模式生成蒙版語言模型。這是ESM3背後的架構的簡短線程。 🧵https://t.co/jldhyrapny
- 托馬斯·海斯(Thomas Hayes)(@thayes427)2024年6月25日
ESM3接受了令人印象深刻的31.5億蛋白序列的訓練(氨基酸在蛋白質中),2.36億個蛋白質結構(其3D形狀)和5.39億個蛋白質註釋(描述性標籤)。
通過在那些龐大的數據中發現模式,AI模型可以理解蛋白質構建和功能中什麼有效,什麼無效- 就像Chatgpt可以撰寫一首新詩,該詩在閱讀了數百萬首詩是人類寫的詩後。
使ESMGFP額外特別的原因是它的起作用是:它的熒光與相對tagrfp一樣。熒光蛋白給一些海洋生物發光, 和有在。
“我們之所以選擇熒光的功能,是因為難以實現,易於測量和自然界中最美麗的機制之一,”團隊寫信。
AI帶走了很多試驗和錯誤,同時增加了探索遠離我們目前知道的蛋白質的能力。
“蛋白質可以看作是存在於有組織的空間中的,在這種空間中,每種蛋白質都被一個突變事件所鄰居,”寫研究人員。 “進化的結構在該空間內顯示為網絡,通過進化可以在它們之間採取的路徑連接所有蛋白質。”
為了進化,團隊說,每種蛋白質都必須變成下一個蛋白質,而不會導致其整體功能的部分。語言模型在該空間中識別蛋白質。
ESM3設計的蛋白質仍然需要進行驗證,合成和測試,這需要時間,但團隊有信心在這裡取得進一步的進展。在不太遙遠的未來,我們可能會通過一些聰明的AI提示來生產從藥物到生物材料的所有食品的蛋白質。
“蛋白質語言模型不能在進化的物理約束中明確起作用,而是可以隱式地構建進化可能遵循的多種潛在路徑模型。”解釋。
該研究已發表在科學。