科學家開發了一種新型機器學習模型,可以理解和設計遺傳指令。
這個被稱為 Evo 的模型可以預測基因突變的影響並產生新的 DNA 序列——儘管這些 DNA 序列與生物體的 DNA 並不緊密匹配。
然而,研究人員在 11 月 15 日發表在該雜誌上的一項新研究中寫道,透過時間和訓練,Evo 和類似模型可以幫助科學家了解各種 DNA 和 RNA 序列的功能並減輕疾病科學。
Evo 是一種(AI)系統稱為大語言模型(LLM),類似於 OpenAI 的 GPT-4 或 Google 的。研究人員和開發人員使用大量來自互聯網等公開資源的數據來培訓法學碩士,法學碩士會尋找常見短語或典型句子結構等模式,並使用這些模式一一提供句子中的單字。
有關的:
與更常見的法學碩士不同,Evo 沒有接受過單字訓練。相反,它是針對數百萬微生物(古細菌、細菌和感染它們的病毒)的基因組進行訓練,而不是像植物和動物這樣的真核生物。這些基因組中的每個鹼基對(構成 DNA 的基本化學單位)在模型中充當一個「單字」。然後,Evo 將鹼基對序列與其訓練集進行比較,以預測 DNA 鏈如何發揮作用,或產生新的遺傳物質。
其他模型已經使用機器學習甚至法學碩士來檢查遺傳資訊。但科學家在研究中寫道,到目前為止,它們僅限於專門的功能或受到高計算成本的阻礙。相較之下,Evo 使用快速、高解析度的模型來處理長串訊息,使其能夠分析基因組規模的模式,並捕捉更專業的模型可能會錯過的大規模相互作用的資訊。
作者在一系列任務上對 Evo 進行了測試。 Evo 預測了基因突變將如何影響蛋白質結構,其表現與專門針對此任務訓練的模型相當。它還生成了一組蛋白質和 RNA 成分,可在實驗室測試中防止病毒感染。
Evo 甚至產生了整個基因組大小的 DNA 序列,但這種 DNA 不一定能讓某些東西保持活力。一些遺傳指令與現有生物體中的 DNA 相似。其他的乍看之下很相似,但仔細觀察卻沒有任何意義,類似於人工智慧產生的手指太多的人的圖像。例如,Evo 產生的 DNA 中編碼的許多蛋白質結構與天然存在的蛋白質不符。
研究人員在研究中寫道:“這些樣本代表了基因組的‘模糊圖像’,其中包含關鍵特徵,但缺乏自然基因組典型的更精細的細節。”
他們也只對 Evo 進行微生物基因組訓練,因此預測人類基因突變的影響仍無法掌握。至關重要的是,該團隊強調需要製定安全和道德準則,以防止 Evo 等工具在性能提高時被濫用。特別是,該團隊排除了感染病毒基因組的數據。
研究人員寫道:“科學界、安全專家和政策制定者參與的積極討論對於防止濫用並促進減輕現有和新興威脅的有效策略至關重要。”