人們認為,蛋白質大約在37億年前首次出現在地球上,從那以後,大自然將它們鍛造成今天存在的分子。但是,如果有一種方法可以人為地模仿該過程怎麼辦?
這正是該公司EvolutionaryScale的一群研究人員所聲稱的,它已經使用了人工智能(AI)的力量,為全新的熒光蛋白啟動的代碼生成了代碼。
蛋白質是由長弦形成的。這是一個序列的技術術語,上述序列的差異決定了蛋白質的最終結構和功能。
研究人員在論文中寫道:“ [a]共識正在發展,基礎這些序列是蛋白質生物學的基本語言,可以使用語言模型來理解。”如果是這種情況,那麼有可能生成全新蛋白質的序列,結構和功能可能與已經存在的蛋白質大不相同。
他們理解這種語言的嘗試是ESM3,這是一種多模式生成語言模型。從簡單的角度來看,這是一種生成的AI - - 但是,該型號沒有像用chatgpt那樣提示它寫作作業,而是吐出了蛋白質的代碼。
它已經接受了7710億個獨特令牌的訓練 - 數據單位的AI項 - 從天然蛋白質序列和結構的數據庫以及一些生成的合成序列中訓練。這些數據總共包含31.5億蛋白序列,2.36億蛋白質結構和5.39億個具有功能註釋的蛋白質。
下一步是看看它是否可以產生全新的蛋白質序列。在這種情況下,團隊要求該模型生成新的熒光蛋白,並以不完整的配方和填補空白的任務提示它。
它做到了這一點,生成了以前未知的綠色熒光蛋白(GFP)的序列和結構,該變體通常用於細胞和分子生物學研究中 - 稱為ESMGFP。
根據EvolutionaryScale,這種新蛋白“與天然熒光蛋白相比是一種巨大的進化,與在氣泡尖 - 天皇的近距離天然蛋白EQFP578相比,序列共享53%的相似性。研究小組在他們的論文中聲稱,這種差異“在一定程度上相當於模擬超過5億年的發展”。
但是,並不是每個人都那麼確定 - 巴斯·蒂法尼·泰勒大學(University of Bath Tiffany Taylor)的微生物生態學和進化教授,他沒有參與研究,現場科學在2024年(研究仍然是預印本時),“ AI驅動的蛋白質工程很有趣,但我不禁感到我們可能會過分自信,假設我們可以超越數百萬自然選擇的複雜過程。 “
但是,正如泰勒所說,這是一個有趣的概念 - 但是它到底有用嗎? EvolutionaryScale的網站表示,其模型是“科學家可以想像蛋白質捕獲碳[…]酶的工具,這些酶會分解塑料和新藥物。”
不過,不能保證這最終會轉化為現實。就目前而言,新發現的蛋白質僅在AI意義上仍然“產生”。
該研究發表在雜誌上科學。