
幕后文章是与国家科学基金会合作提供给生活方面的。
超级计算机和下一代基因测序仪允许研究人员探索DNA和遗传。
我们通常会考虑遗传性 - 眼睛的颜色,体型或对疾病的易感性 - 植根于我们的基因。是的。但是,随着生物学家对更多的基因组进行序列,他们发现基因之外的基因组的非编码区域(以前被认为是“垃圾”)在我们的基因构成中也起着重要作用。
自2001年以来,人类基因组的DNA测序成本已从数十亿美元下降到数万美元,从而使人们对基因表达的更为集中研究。这极大地提高了科学家了解生物系统及其与疾病的关系的能力。
许多常见疾病的遗传成分使人们容易生病,但是这种联系很少简单。下一代基因序列和高性能计算机的结合使生物学家能够提出有关我们DNA的新问题,并了解有关疾病和遗传的新见解。
一个重要的例子涉及转录因子蛋白在基因调节中的作用,科学家才刚刚开始探索。这些蛋白质与基因组上的着陆垫结合,并充当基因调节的控制拨盘 - 打开或关闭基因,并确定细胞中基因活性的水平。
“如果您将正常细胞与癌细胞进行比较,您想知道癌细胞中发生的事情,这使其与众不同。”Vishy Iyer,在德克萨斯大学奥斯汀分校。 “基因表达模式发生了变化,我们想知道哪些基因被调节或下降,以及如何产生。”
已经确定了大约2,000个转录因子蛋白,其中一些与乳腺癌和其他癌症,RETT综合征和自身免疫性疾病有关。但是,对它们的工作方式知之甚少。
艾尔(Iyer)与杜克大学,北卡罗来纳大学 - 教堂山和英国欣克斯顿的同事一起试图改变这一点。他们的研究发表在《科学》杂志上,是最早使用下一代测序和超级计算机来探索与特定调节转录因子相关的基因表达(称为CTCF)的研究之一。他们确定转录因子结合是一种可遗传的特征。
艾尔说:“我们首次表明,个体之间的DNA的某些差异会影响转录因子的结合。” “更重要的是,这些差异可以继承。”
该小组使用了一种称为ChIP-Seq的相对较新的测序技术,仅研究感兴趣的蛋白质与之结合的DNA区域。然后对这些碱基对进行测序以确定核苷酸的顺序,并计算多少分子与蛋白质结合。
听起来很简单,直到您尝试对数百万这些区域进行测序以在人类基因组中大约30亿个碱基对中找到它们的确切位置。
艾尔说:“基因组是一个广阔的区域,具有许多特征。” “您可以将蛋白质视为我们试图在基因组图上放置的地标。”
德克萨斯州高级计算中心的国家科学基金会资助的Ranger超级计算机采用了Chip-Seq产生的短序列读取,并将它们与参考基因组相提并论。
艾耶开玩笑说:“这就像文本搜索。尽管如果您尝试用Microsoft Word运行它,它将永远不会完成。”
同时在游骑兵上使用数千个处理器,对每个数据集进行了几个小时的比对,并且总共使用了一个相当于20年的单个处理器。
下一代测序提供的单个基础分辨率使研究人员能够查看个体,已知的DNA差异,并使用这些差异来检查每个染色体上的基因如何结合转录因子。
艾尔说:“我们可以说出与您从父母继承的基因结合的差异 - 这是很大的进步。” “现在,我们正在将此技术应用于您知道您的一个父母的基因的突变,可以将您预见到某些疾病中。”
这些发现使科学基于对个人的基因组的详细阅读,包括非编码区域的详细阅读,使科学更接近个性化医学。尽管基因组具有巨大的复杂性,但艾耶(Iyer)对研究将对人类健康产生影响感到乐观。
他说:“有很多疾病,对于一个子集,它们会通过影响转录因素来影响基因表达。” “如果我们巧妙地选择疾病和因素,我认为我们会找到它们。”
编者注:这项研究得到了国家科学基金会的支持(NSF),联邦机构负责在科学和工程领域的所有领域资助基础研究和教育。本材料中表达的任何观点,发现和结论或建议都是作者的意见,不一定反映了国家科学基金会的观点。看到幕后档案。