周四,科学家们公布了迄今为止最详尽的构成生命组成部分的蛋白质数据库,观察家称这是一项突破性的研究,这将“从根本上改变生物学研究”。
每个生物体中的每个细胞都由蛋白质触发执行其功能,这些蛋白质不断发出指令以保持健康和抵御感染。
与基因组(编码细胞生命的人类基因的完整序列)不同,人类蛋白质组会根据遗传指令和环境刺激而不断变化。
几十年来,了解蛋白质在细胞内的运作方式——它们最终形成或“折叠”成的形状一直让科学家们着迷。
但通过直接实验确定每种蛋白质的精确功能是一项艰苦的工作。
经过 50 年的研究,迄今为止仅获得了人类蛋白质组氨基酸(蛋白质亚基)的 17%。
周四,谷歌 DeepMind 和欧洲分子生物学实验室 (EMBL) 的研究人员公布了一项20,000 个蛋白质的数据库由人类基因组表达,可在网上免费公开获取。
它们还包括来自 20 种生物体(如细菌、酵母和小鼠)的超过 350,000 种蛋白质,科学家们依赖这些生物体进行研究。
为了创建数据库,科学家们使用了最先进的机器学习程序它能够根据氨基酸序列准确预测蛋白质的形状。
他们没有花费数月时间使用价值数百万美元的设备,而是训练了他们的AlphaFold系统包含 170,000 个已知蛋白质结构的数据库。
然后,人工智能使用算法准确预测人类蛋白质组中 58% 的蛋白质的形状。
这使得研究人员在 50 年的直接实验中(基本上是在一夜之间)鉴定出的高精度人类蛋白质结构的数量增加了一倍多。
潜在的应用是巨大的,从研究遗传疾病和对抗抗菌素耐药性到设计更耐旱的作物。
“蛋白质折叠问题”
保罗·纳斯(Paul Nurse),2001年诺贝尔医学奖获得者、弗朗西斯·克里克研究所所长说周四的发布是“生物创新的伟大飞跃”。
“有了免费、公开的资源,科学界将能够利用集体知识来加速发现,开创人工智能生物学的新时代,”他说。
朴茨茅斯大学酶创新中心主任 John McGeehan 的团队正在开发能够消耗一次性塑料废物的酶,他表示 AlphaFold 彻底改变了该领域。
“我们花了数月甚至数年时间才能完成的事情,AlphaFold 在一个周末就能完成。我觉得我们比昨天的水平至少提前了一年,”他说。
使用计算机而不是实验来预测蛋白质形状的能力已经为许多研究领域的科学家提供了帮助。
AlphaFold 已被用于研究治疗对较贫穷国家影响尤为严重的疾病。
美国的一个团队正在利用人工智能预测来研究克服耐药细菌菌株的方法。
另一组正在使用数据库来更好地了解如何, 这这导致,与人体细胞结合。
2009年诺贝尔化学奖获得者文基·拉马克里希南(Venki Ramakrishnan)说周四的研究,发表在期刊上自然,是生物学研究中的“惊人进步”。
他表示,AlphaFold 基本上解决了所谓的“蛋白质折叠问题”,该问题认为给定蛋白质的 3D 结构应该可以从其氨基酸序列确定,这个问题困扰了科学家半个世纪。
鉴于蛋白质理论上可以呈现的形状数量是天文数字,因此蛋白质折叠问题部分是处理能力的问题。
这项任务非常艰巨,以至于 1969 年美国分子生物学家西里尔·莱文塔尔 (Cyril Levinthal) 提出了著名的理论,即使用暴力计算枚举所有可能的蛋白质构型需要比已知宇宙的年龄更长的时间。
但由于 AlphaFold 每秒能够执行令人眼花缭乱的计算量,因此在面对人工智能和算法时,这个问题根本不可能解决。
“这件事发生的时间远远早于该领域的许多人预料到的,”拉马克里希南说道。
“看到它将以多种方式从根本上改变生物学研究,这将是令人兴奋的。”