人工智能正在帮助科学家解码以前难以理解的蛋白质
这些工具可以帮助发现更好的癌症治疗方法、阐明罕见疾病等
用于检测和描述以前未发现的蛋白质的新人工智能工具有可能改善疾病治疗并增强我们的基础生物学知识。
安妮卡特琳·柯克特普-莫勒
进入了基础生物学的新领域:帮助科学家更好地了解蛋白质,即活细胞的主力。
科学家们已经研制出两种新的人工智能工具来破译蛋白质研究人员于 3 月 31 日报告称,现有的检测方法经常会漏掉自然机器智能。在所有类型的生物样本中发现这些未知的蛋白质可能是创造更好的癌症治疗方法、提高医生对疾病的理解以及发现无法解释的动物能力背后的机制的关键。
如果 DNA 代表有机体的总体规划,那么蛋白质就是最终的构建,封装了细胞的结构实际上制作并做。偏离制造蛋白质的 DNA 蓝图的情况很常见:蛋白质在生产后可能会发生改变或削减,并且在许多情况下,生产过程中会出现问题,导致蛋白质与最初的遗传图不同。这些意想不到的“隐藏”蛋白质历来很难让科学家识别和分析。这就是机器学习工具发挥作用的地方。
马里兰州盖瑟斯堡国家标准与技术研究所的化学家兼蛋白质科学家本杰明·尼利 (Benjamin Neely) 表示,名为 InstaNovo 和 InstaNovo+ 的人工智能模型是朝着蛋白质研究“圣杯”迈出的一步:揭开之前未研究过的蛋白质的遗传特性。
随着不断的进步和测试,这些工具或类似的工具“将会变得非常强大。它会让我看到我通常看不到的东西,”尼利说,他没有参与这项研究。许多非模式生物尚未得到充分研究,它们的蛋白质也很少被编目。作为一个假设,尼利建议新工具可用于寻找不为人知的肾脏蛋白质,这些蛋白质允许黄貂鱼在咸水和海洋之间移动。
人工智能已经改变了研究人员的工作方式使用名为 AlphaFold 的工具。以及机器学习驱动的于 2024 年获得诺贝尔奖。 Neely 表示,填补蛋白质测序领域长期存在的空白将成为该领域人工智能的下一个飞跃。
InstaNovo (IN) 的结构与 OpenAI 的 GPT-4 变压器模型类似,经过训练可将通过质谱绘制的蛋白质“指纹”的峰谷转换为一串可能的氨基酸。然后可以使用这些氨基酸序列来重建和识别隐藏的蛋白质。 Instanovo+ (IN+) 是一种扩散模型,其工作方式更像是 AI 图像生成器,并且准备获取相同的初始信息并逐步消除噪声以生成清晰的蛋白质图像。
IN 和 IN+ 是不是第一次尝试将机器学习应用于蛋白质测序。但这项新研究表明,这项技术近年来已经取得了多么大的进步——越来越接近现实世界的实用性,这在很大程度上要归功于扩大蛋白质分析数据库比如Proteome Tools,它可以用来训练人工智能模型。这些是用于开发和训练 IN 和 IN+ 的数据,但模型的分析范围超出了现有数据库中的蛋白质。他们可以提出尚未编目的可能蛋白质片段。
与结果相比,这两种工具在一系列测试中都显示出良好的前景之前发布的 AI Transformer 蛋白质解码器叫卡萨诺沃,来自最常用于识别未知蛋白质。在简单的蛋白质测序测试中,这些模型的表现并不优于数据库搜索,但它们似乎在更复杂的试验中表现出色。
一项特别具有挑战性的任务是对人类免疫蛋白进行测序,由于其尺寸和氨基酸组成较小,因此很难用标准方法进行分析。研究人员报告说,IN 发现的候选蛋白质片段数量大约是传统数据库搜索的三倍,从大约 10,000 个已识别的肽增加到超过 35,000 个。 IN+ 的发现量大约是原来的六倍。一起使用时,这些模型的综合性能可提供更大的提升。
根据研究中提出的彻底验证,专门从事蛋白质分析的阿曼达·斯迈瑟斯 (Amanda Smythers) 表示,她很想尝试这些工具。 Smythers 是波士顿达纳法伯癌症研究所的化学家,他设想使用人工智能模型来回答诸如为什么胰腺癌通常会引发快速肌肉萎缩和疲劳等问题。癌细胞产生的蛋白质或非癌细胞中正常蛋白质功能的破坏可能是错误的原因。 “这是我们还不了解的非常重要的生物学部分,”斯迈瑟斯说。
将模糊的蛋白质序列带到表面(无论它们是来自癌细胞还是黄貂鱼肾)可能使以下可能性成为可能:或利用有益的物质来治疗疾病。
不过,新模型也有局限性。
研究作者估计,误报的可能性约为 5%,这意味着人工智能输出需要额外的验证,共同作者、林比丹麦技术大学的计算生物工程师康斯坦丁诺斯·卡洛格罗普洛斯 (Konstantinos Kalogeropoulos) 表示。 Casanovo 的开发者、西雅图华盛顿大学的计算机科学家和蛋白质组学研究员 William Noble 指出,如何最好地评估这些人工智能工具仍然是一个悬而未决的问题。
最后,Smythers 表示,人工智能测序并不能取代数据库搜索。这是一个补充。 “从来没有一种工具适合每项工作,”她说。 “然而,正是这样的工具真正帮助我们在该领域取得进一步进展。”









