合成新蛋白質——生物生命——是一個潛力巨大的科學領域,新開發的人工智能模型有望為新蛋白質創建指令,遠遠超出自然界中發現的蛋白質。
美國科學家使用 EvolutionaryScale Model 3 (ESM3) 合成了一種名為 esmGFP(綠色熒光蛋白)的新蛋白質,該蛋白質與其最接近的天然親戚僅共享 58% 的材料標籤RFP。
研究團隊估計,這相當於人工智能處理了 5 億年的進化,並且它為創建可設計用於特定用途的定制蛋白質或從現有蛋白質中解鎖更多功能開闢了道路。
“超過三十億年的進化已經產生了編碼到天然蛋白質空間中的生物圖像,”寫由紐約 EvolutionaryScale 創始人 Thomas Hayes 領導的研究人員在他們發表的論文中表示。
“在這裡,我們表明,根據進化數據進行大規模訓練的語言模型可以生成遠離已知蛋白質的功能蛋白質。”
我很高興能分享我們一直在努力的事情@EvoscaleAI。 ESM3 是一種用於編程生物學的多模式生成屏蔽語言模型。以下是關於 ESM3 背後架構的簡短討論。 🧵https://t.co/jldHYRAPNy
— 托馬斯·海耶斯 (@THayes427)2024 年 6 月 25 日
ESM3 接受了令人印象深刻的 31.5 億個蛋白質序列(順序為氨基酸蛋白質)、2.36 億個蛋白質結構(它們的 3D 形狀)和 5.39 億個蛋白質註釋(描述性標籤)。
通過發現海量數據中的模式,人工智能模型可以了解蛋白質構建和功能中哪些有效、哪些無效,就像 ChatGPT 在閱讀了數百萬首人類寫的詩歌后可以創作一首押韻的新詩一樣。
esmGFP 的特別之處在於它的工作原理:它像其相關 tagRFP 一樣具有熒光。熒光蛋白給一些海洋生物發光, 和有在。
“我們選擇熒光的功能是因為它很難實現,但易於測量,而且是自然界最美麗的機制之一,”該團隊寫。
人工智能消除了很多嘗試和錯誤,同時增加了探索遠離我們目前所知的蛋白質的能力。
“蛋白質可以被視為存在於一個有組織的空間內,其中每種蛋白質都與其他蛋白質相鄰,相距一個突變事件,”寫研究人員。 “進化的結構在這個空間中表現為一個網絡,通過進化在它們之間採取的路徑連接所有蛋白質。”
研究小組表示,為了實現進化,每種蛋白質都必須轉變為下一種蛋白質,而它所屬的系統又不能失去其整體功能。語言模型可以識別這個空間中的蛋白質。
ESM3設計的蛋白質仍需要驗證、合成和測試,這需要時間,但團隊有信心在此取得進一步進展。在不遠的將來,只需一些聰明的人工智能提示,我們就可以生產從藥物到生物材料等各種用途的蛋白質。
研究人員表示:“蛋白質語言模型並不明確地在進化的物理限制內工作,而是隱式地構建了進化可能遵循的多種潛在路徑的模型。”解釋。
該研究發表於科學。









