人体的每个细胞内都有一组蛋白质,其中数以百万计。它们都在忙碌着,被快速地组装、折叠、包装、运输、切割和回收,以一种狂热的速度工作着,以维持我们的生命和运转。
但是,如果没有对我们细胞内的蛋白质宇宙进行全面的了解,科学家们就很难在分子水平上了解我们的身体出了什么问题导致了疾病。
现在,研究人员开发了一种新技术,使用吸收来自单细胞显微镜图像和生化分析的数据,创建亚细胞成分的“统一图谱”——事实证明,其中一半是我们以前从未见过的。
“科学家们早就意识到我们不知道的东西比我们知道的还要多,但现在我们终于有办法进行更深入的研究,”说加州大学圣地亚哥分校 (UC) 的计算机科学家和网络生物学家 Trey Ideker。
显微镜虽然功能强大,但可以让科学家观察单个细胞的内部,直至细胞器的水平,例如线粒体(细胞的能量组)和核糖体(蛋白质工厂)。我们甚至可以添加荧光染料来轻松标记和追踪蛋白质。
生物化学技术可以更深入地研究单一蛋白质,例如通过使用靶向结合蛋白质,将其从细胞中拉出,然后看看还有什么东西附着在它上面。
整合这两种方法对细胞生物学家来说是一个挑战。
“如何弥合从纳米级到微米级的差距?这长期以来一直是生物科学中的一大障碍,”解释艾德克.
“事实证明,你可以用人工智能来做到这一点——查看多个来源的数据,并要求系统将其组装成细胞模型。”
结果:艾德克和同事们翻转了教科书上的球状细胞图,让我们鸟瞰糖果色的细胞器,将其转变为蛋白质-蛋白质相互作用的复杂网络,并由它们之间微小的距离组织起来。
真核生物横截面的经典视图。 (玛丽安娜·鲁伊斯/LadyofHats/维基媒体)
融合来自人类蛋白质图谱库的图像数据和现有的蛋白质相互作用图,算法的任务是计算蛋白质对之间的距离。
目标是识别蛋白质群落(称为组装体),它们以不同尺度(从非常小(小于 50 nm)到非常“大”(大于 1 μm))共存于细胞中。
该算法对不到 70 个蛋白质群落进行了分类,该算法使用已知或估计直径的蛋白质参考库进行训练,并通过进一步的实验进行验证。
研究人员表示,大约一半的蛋白质成分似乎是科学未知的,从未在已发表的文献中记录过建议。
在混合物中,一组蛋白质形成了一种不熟悉的结构,研究人员发现这可能是造成这种现象的原因。拼接以及切割用于制造蛋白质的遗传密码的新转录本。
绘制的其他蛋白质包括将物质泵入和泵出细胞的跨膜运输系统、帮助组织庞大染色体的蛋白质家族,以及其作用是制造更多蛋白质的蛋白质复合物。
不过,这并不是科学家第一次尝试绘制人类细胞的内部运作图谱,这是一项巨大的努力。
创建蛋白质相互作用参考图的其他努力已经取得成果同样令人难以置信的数字并试图测量蛋白质水平跨越人体组织。
研究人员还开发了可视化和跟踪的技术蛋白质的相互作用和运动在细胞中。
这项试点研究更进一步,将机器学习应用于细胞显微镜图像,这些图像可以相对于细胞核等大型细胞标志物定位蛋白质,以及来自蛋白质相互作用研究的数据,可以识别蛋白质最近的纳米级邻居。
“这些技术的结合是独特而强大的,因为这是第一次将截然不同的尺度的测量结合在一起,”说加州大学圣地亚哥分校的生物信息学家秦悦。
在此过程中,多尺度集成细胞技术(MuSIC)“提高了成像分辨率,同时赋予蛋白质相互作用空间维度,为将不同类型的数据纳入蛋白质组范围的细胞图谱中铺平了道路”,Qin、Ideker 及其同事写。
需要明确的是,这项研究是非常初步的:该团队专注于验证他们的方法,只查看了一种细胞类型(科学家们在实验室培养了 50 年的肾细胞系)中 661 种蛋白质的可用数据。
研究人员计划将他们的新技术应用于其他细胞类型,说艾德克.
但与此同时,我们必须谦虚地接受我们只是自己细胞内的闯入者,能够理解总数的一小部分蛋白质组。
“最终,通过比较健康细胞和患病细胞之间的差异,我们也许能够更好地了解许多疾病的分子基础。”说艾德克.
该研究发表于自然。