人们认为,蛋白质大约在37亿年前首次出现在地球上,从那以后,大自然将它们锻造成今天存在的分子。但是,如果有一种方法可以人为地模仿该过程怎么办?
这正是该公司EvolutionaryScale的一群研究人员所声称的,它已经使用了人工智能(AI)的力量,为全新的荧光蛋白启动的代码生成了代码。
蛋白质是由长弦形成的。这是一个序列的技术术语,上述序列的差异决定了蛋白质的最终结构和功能。
研究人员在论文中写道:“ [a]共识正在发展,基础这些序列是蛋白质生物学的基本语言,可以使用语言模型来理解。”如果是这种情况,那么有可能生成全新蛋白质的序列,结构和功能可能与已经存在的蛋白质大不相同。
他们理解这种语言的尝试是ESM3,这是一种多模式生成语言模型。从简单的角度来看,这是一种生成的AI - - 但是,该型号没有像用chatgpt那样提示它写作作业,而是吐出了蛋白质的代码。
它已经接受了7710亿个独特令牌的训练 - 数据单位的AI项 - 从天然蛋白质序列和结构的数据库以及一些生成的合成序列中训练。这些数据总共包含31.5亿蛋白序列,2.36亿蛋白质结构和5.39亿个具有功能注释的蛋白质。
下一步是看看它是否可以产生全新的蛋白质序列。在这种情况下,团队要求该模型生成新的荧光蛋白,并以不完整的配方和填补空白的任务提示它。
它做到了这一点,生成了以前未知的绿色荧光蛋白(GFP)的序列和结构,该变体通常用于细胞和分子生物学研究中 - 称为ESMGFP。
根据EvolutionaryScale,这种新蛋白“与天然荧光蛋白相比是一种巨大的进化,与在气泡尖 - 天皇的近距离天然蛋白EQFP578相比,序列共享53%的相似性。研究小组在他们的论文中声称,这种差异“在一定程度上相当于模拟超过5亿年的发展”。
但是,并不是每个人都那么确定 - 巴斯·蒂法尼·泰勒大学(University of Bath Tiffany Taylor)的微生物生态学和进化教授,他没有参与研究,现场科学在2024年(研究仍然是预印本时),“ AI驱动的蛋白质工程很有趣,但我不禁感到我们可能会过分自信,假设我们可以超越数百万自然选择的复杂过程。 “
但是,正如泰勒所说,这是一个有趣的概念 - 但是它到底有用吗? EvolutionaryScale的网站表示,其模型是“科学家可以想象蛋白质捕获碳[…]酶的工具,这些酶会分解塑料和新药物。”
不过,不能保证这最终会转化为现实。就目前而言,新发现的蛋白质仅在AI意义上仍然“产生”。
该研究发表在杂志上科学。