现在,研究人员可以获得AI帮助合成蛋白质。 (ko_feja/e+/getty图像)
合成新蛋白质 - 生物学生活 - 是一个巨大潜力的科学领域,新开发的AI模型有望为超出自然中发现的新蛋白质创建指令。
美国的科学家使用了EvolutionaryScale Model 3(ESM3)来合成一种称为ESMGFP(绿色荧光蛋白)的新蛋白tagrfp。
研究团队估计,这相当于AI处理的5亿年进化,这为创建可以设计用于特定用途的定制蛋白质开辟了道路,或者从现有蛋白质中解释了更多功能。
“超过30亿年的进化产生了编码自然蛋白空间的生物学形象,”写由纽约EvolutionaryScale的创始人托马斯·海斯(Thomas Hayes)领导的研究人员在发表的论文中。
“在这里,我们表明,对进化数据进行大规模训练的语言模型可以生成远离已知蛋白质的功能蛋白。”
我很高兴分享我们一直在做的事情@evoscaleai。 ESM3是用于编程生物学的多模式生成蒙版语言模型。这是ESM3背后的架构的简短线程。 🧵https://t.co/jldhyrapny
- 托马斯·海斯(Thomas Hayes)(@thayes427)2024年6月25日
ESM3接受了令人印象深刻的31.5亿蛋白序列的训练(氨基酸在蛋白质中),2.36亿个蛋白质结构(其3D形状)和5.39亿个蛋白质注释(描述性标签)。
通过在那些庞大的数据中发现模式,AI模型可以理解蛋白质构建和功能中什么有效,什么无效 - 就像Chatgpt可以撰写一首新诗,该诗在阅读了数百万首诗是人类写的诗后。
使ESMGFP额外特别的原因是它的起作用是:它的荧光与相对tagrfp一样。荧光蛋白给一些海洋生物发光, 和有在。
“我们之所以选择荧光的功能,是因为难以实现,易于测量和自然界中最美丽的机制之一,”团队写信。
AI带走了很多试验和错误,同时增加了探索远离我们目前知道的蛋白质的能力。
“蛋白质可以看作是存在于有组织的空间中的,在这种空间中,每种蛋白质都被一个突变事件所邻居,”写研究人员。 “进化的结构在该空间内显示为网络,通过进化可以在它们之间采取的路径连接所有蛋白质。”
为了进化,团队说,每种蛋白质都必须变成下一个蛋白质,而不会导致其整体功能的部分。语言模型在该空间中识别蛋白质。
ESM3设计的蛋白质仍然需要进行验证,合成和测试,这需要时间,但团队有信心在这里取得进一步的进展。在不太遥远的未来,我们可能会通过一些聪明的AI提示来生产从药物到生物材料的所有食品的蛋白质。
“蛋白质语言模型不能在进化的物理约束中明确起作用,而是可以隐式地构建进化可能遵循的多种潜在路径模型。”解释。
该研究已发表在科学。