已经进入了基本生物学的新领域:帮助科学家更好地了解蛋白质,生物细胞的主力。
科学家已经发展了两个新的AI工具来破译蛋白质研究人员经常被现有检测方法错过,3月31日报告自然机器智能。在所有类型的生物样品中发现这些未知的蛋白质可能是创造更好的癌症治疗,改善医生对疾病的理解以及发现无法解释的动物能力背后的机制的关键。
如果DNA代表有机体的总体规划,那么蛋白质是最终的构建,封装了哪些细胞实际上做和做。与生产蛋白质的DNA蓝图的偏差是常见的:蛋白质可能会发生变化或削减后期制作,并且在许多情况下,管道中有些事情会出现问题,从而导致蛋白质与最初的遗传示意图不同。这些意外的“隐藏”蛋白在历史上很难识别和分析。这就是机器学习工具的来源。
AI模型(称为Instanovo和Instanovo+)是迈向蛋白质研究的“圣杯”的一步:揭示了盖瑟斯堡国家标准和技术学院的化学家和蛋白质科学家本杰明·尼利(Benjamin Neely)说,揭开了以前未研究的蛋白质的遗传认同。
随着进步和测试的持续,这些工具或类似工具“将变得强大。它将让我看到我通常看不到的东西,”不参与研究的Neely说。许多非模型生物的研究尚未得到很好的研究,它们的蛋白质分类较差。作为一个假设的Neely,Neely建议新工具可用于找到晦涩的肾脏蛋白,使黄貂鱼在咸水和海洋之间移动。
AI已经改变了研究人员使用称为AlphaFold的工具。和机器学习 - 权力Neely建议,在2024年获得诺贝尔奖。填补蛋白质测序的长期空白是该领域的下一个AI飞跃。
Instanovo(In)的结构类似于OpenAI的GPT-4变压器模型,并经过训练,可以通过质谱绘制的蛋白质“指纹”的峰和山谷转化为一串可能的氨基酸。然后,这些氨基酸序列可用于重建和鉴定隐藏的蛋白质。 Instanovo+(in+)是一个扩散模型,其工作原理更像是AI图像发生器,并且可以采用相同的初始信息并逐渐消除噪声以产生清晰的蛋白质图片。
在+ in+是不是第一次尝试将机器学习应用于蛋白质测序。但是这项新研究表明,近年来,技术已经走了多远 - 与现实世界的实用程序更加近,这在很大程度上要归功于扩展蛋白质分析数据库像蛋白质组工具一样,可用于训练AI模型。这些是用于开发和训练在+中的数据,但是模型的分析范围超出了现有数据库中的蛋白质。他们可以建议尚未分类的可能的蛋白质段。
这两种工具都单独在一系列测试中都表现出希望先前发布的AI变压器蛋白解码器称为卡萨诺沃(Casanovo)通常用于ID未知蛋白质。在直接的蛋白质测序测试中,模型并不能胜过数据库搜索,但它们似乎在更复杂的试验中表现出色。
一个特别具有挑战性的任务是对人免疫蛋白进行测序,由于其尺寸小和氨基酸组成,因此使用标准方法很难分析它们。研究人员报告说,在发现候选蛋白段的大约是经典数据库搜索的三倍,从大约10,000个确定的肽到超过35,000。在+中,发现大约是六倍。一起使用,模型的组合性能提供了更大的提升。
根据研究中提出的彻底验证,专门从事蛋白质分析的Amanda Smythers说,她渴望尝试这些工具。 Smythers是波士顿Dana-Farber癌症研究所的化学家,他想象使用AI模型回答诸如胰腺癌通常会触发快速肌肉浪费和疲劳的问题。由癌细胞产生的蛋白质或非癌细胞中正常蛋白质功能的破坏可能有故障。 Smythers说:“这是我们尚不理解的非常重要的生物学。”
将晦涩的蛋白质序列带到表面(无论是来自癌细胞还是黄貂鱼肾脏),可以使可能性或利用有益的治疗疾病。
尽管如此,新模型仍有局限性。
Lyngby丹麦技术大学的计算生物工程师Konstantinos Kalogeropoulos表示,研究作者估计的假阳性的可能性估计为5%,这意味着AI输出需要额外的验证。以及西雅图华盛顿大学的计算机科学家和蛋白质组学研究员威廉·诺布尔(William Noble)指出,如何最好地评估这些AI工具仍然是一个悬而未决的问题。
最后,Smythers说,AI测序不是替代数据库搜索的替代方法。这是一种补充。她说:“从来没有一个工具适合每项工作。” “但是,正是这样的工具确实有助于我们进一步进步。”