当谈到生命时,蛋白质就是一切。基因产生的蛋白质支撑着每一个细胞过程、一个人外表的每一个差异、你所做的每一个动作。这些蛋白质的产生依赖于一个复杂的氨基酸折叠系统(由我们的遗传密码产生的构建模块)一遍又一遍地创建复杂的结构,这些结构决定了蛋白质将如何发挥作用以及它将作用于什么。尽管蛋白质研究取得了巨大的飞跃和技术进步,但科学家们仍然无法理解蛋白质如何折叠以及简单的氨基酸密码将产生什么形状。这被称为“蛋白质折叠问题”,是生物学面临的最大挑战之一。
然而,在一个突破由英国人工智能公司 DeepMind 的 AlphaFold 团队开发,科学家相信他们已经在人工智能中找到了解决方案。深度学习系统被誉为“改变生物学和医学”的一项成就,它可能能够仅通过氨基酸代码来模拟蛋白质结构,而这一壮举通常需要整个博士才能完成。
“近 50 年来,我们一直致力于解决蛋白质如何折叠这一问题。联合创始人约翰·莫尔特 (John Moult) 教授表示:“看到 DeepMind 为这个问题制定了一个解决方案,我们亲自研究了这个问题这么长时间,经过了这么多次的停顿和启动,想知道我们是否能实现这一目标,这是一个非常特殊的时刻。”蛋白质结构预测 (CASP) 批判性评估主席陈述。
众所周知,蛋白质结构很难弄清楚。我们目前的方法包括 X 射线晶体学,它涉及在 X 射线成像之前使蛋白质样品结晶,并编译电子密度数据以创建 3D 结构,或冷冻电子显微镜,它在 3D 成像之前将样品冷冻到低温。这些使我们对蛋白质结构有了深刻的了解,但有些蛋白质无法以这种方式成像,而且两者都需要大量时间并且非常昂贵。
除此之外,这两种技术永远无法解决蛋白质折叠问题,因为它们只对呈现在它们面前的样本进行成像——如果您想根据氨基酸序列预测蛋白质结构怎么办?
相反,研究人员尝试了一种不同的方法——他们创建了一款供全球各地的人们参与的在线游戏。该游戏名为折叠是一项众包项目,通过允许用户预测给定序列的自己的蛋白质形状来预测蛋白质折叠,得分最高的模型获胜。尽管这是一种创新方法,但它既费时又费力,而且常常不准确。
为了解决这个问题,DeepMind 招募了人工智能来完成凡人无法完成的任务。利用深度学习,他们创建了一个人工智能驱动的系统,可以在相对较短的几天内从基本氨基酸序列预测蛋白质结构,其准确性达到令人难以置信的程度。
AlphaFold 开发人员表示:“我们使用公开数据对这个系统进行了训练,这些数据包括来自蛋白质数据库的约 170,000 个蛋白质结构以及包含未知结构的蛋白质序列的大型数据库。” “它使用大约 128 个 TPUv3 核心(大致相当于约 100-200 个图形处理单元)运行几周,对于机器中使用的大多数大型最先进模型来说,这是一个相对适中的计算量今天学习。”
虽然官方数据尚未公布,但这一消息已让科学界兴奋不已,并猜测这对结构生物学意味着什么。对蛋白质折叠的全面理解将推动医学等领域向前发展,可能会以比以往更快的速度生产更有效、更量身定制的药物。
“这项计算工作代表了蛋白质折叠问题的惊人进展,这是生物学领域 50 年来的一项重大挑战。它的发生比该领域许多人的预测早了几十年。看到它将在许多方面从根本上改变生物学研究,这将是令人兴奋的,”诺贝尔奖获得者兼英国皇家学会主席 Venki Ramakrishnan 教授说。