科学家开发了一种新型机器学习模型,可以理解和设计遗传指令。
该模型被称为 Evo,可以预测基因突变的影响并生成新的 DNA 序列——尽管这些 DNA 序列与生物体的 DNA 并不紧密匹配。
然而,研究人员在 11 月 15 日发表在该杂志上的一项新研究中写道,通过时间和训练,Evo 和类似模型可以帮助科学家了解各种 DNA 和 RNA 序列的功能并减轻疾病科学。
Evo 是一种(AI)系统称为大语言模型(LLM),类似于 OpenAI 的 GPT-4 或 Google 的。研究人员和开发人员使用来自互联网等公开资源的大量数据来培训法学硕士,法学硕士会寻找常见短语或典型句子结构等模式,并使用这些模式一一提供句子中的单词。
有关的:
与更常见的法学硕士不同,Evo 没有接受过单词训练。相反,它是针对数百万微生物(古细菌、细菌和感染它们的病毒)的基因组进行训练,而不是像植物和动物这样的真核生物。这些基因组中的每个碱基对(构成 DNA 的基本化学单位)在模型中充当一个“单词”。然后,Evo 将碱基对序列与其训练集进行比较,以预测 DNA 链如何发挥作用,或生成新的遗传物质。
其他模型已经使用机器学习甚至法学硕士来检查遗传信息。但科学家在研究中写道,到目前为止,它们仅限于专门的功能或受到高计算成本的阻碍。相比之下,Evo 使用快速、高分辨率的模型来处理长串信息,使其能够分析基因组规模的模式,并捕获更专业的模型可能会错过的大规模相互作用的信息。
作者在一系列任务上对 Evo 进行了测试。 Evo 预测了基因突变将如何影响蛋白质结构,其表现与专门针对该任务训练的模型相当。它还生成了一组蛋白质和 RNA 成分,可以在实验室测试中防止病毒感染。
Evo 甚至生成了整个基因组大小的 DNA 序列,但这种 DNA 不一定能让某些东西保持活力。一些遗传指令与现有生物体中的 DNA 相似。其他的乍一看很相似,但仔细观察却没有任何意义,类似于人工智能生成的手指太多的人的图像。例如,Evo 生成的 DNA 中编码的许多蛋白质结构与天然存在的蛋白质不匹配。
研究人员在研究中写道:“这些样本代表了基因组的‘模糊图像’,其中包含关键特征,但缺乏自然基因组典型的更精细的细节。”
他们还只对 Evo 进行微生物基因组训练,因此预测人类基因突变的影响仍然无法掌握。至关重要的是,该团队强调需要制定安全和道德准则,以防止 Evo 等工具在性能提高时被滥用。特别是,该团队排除了感染病毒基因组的数据。
研究人员写道:“科学界、安全专家和政策制定者参与的积极讨论对于防止滥用并促进减轻现有和新兴威胁的有效战略至关重要。”