加利福尼亚大学圣地亚哥大学的研究人员使用人工智能来识别DNA激活代码,该代码以前被称为“谜”,但后来可以用于N生物技术和生物医学应用中。
长期以来,科学家知道人类基因是通过精确的DNA顺序提供的指示确定的,并与四个“碱”绑定,这些“碱基”被编码为A,C,G和T。纸于9月9日发表在《大自然》杂志上。
塔塔阿(TataaA)序列也称为塔塔(Tata)框,而剩下的75%由于DNA碱基序列的可能性众多,因此将近25%的基因也被称为tata框。

但是,研究人员现在找到了激活代码以帮助识别这些基因。加州大学圣地亚哥分校新闻中心报道说,它被称为下游核心启动子地区(DPR)。
加州大学圣地亚哥分校的生物科学系教授詹姆斯·T·卡多纳加(James T.
卡多纳加说:“ DPR一直是一个谜 - 是否存在于人类中,这是有争议的。”
1996年,Kadonaga教授及其在水果蝇中工作的同事发现了一个新的基因激活序列,他们称其为DPE。它源自DPR的一部分,即使没有TATA框,也可以激活基因。

1997年,他们还发现了人类中的单个DPE序列。但是,他们在解释人类DPE的细节和频率方面并没有成功。
大约23年后,Kadonaga与首席作家和博士后学者Long Vo Ngoc,Cassidy Yunjing Huang,Claudia Medrano和Jack Cassidy一起工作,后者是一位退休的计算机科学家,他们帮助利用强大的人工智能工具。
这项研究得到了美国国立卫生研究院国家一般医学科学研究所的支持。
取得“荒谬的好”结果
在这项研究中,研究人员的量为500,000随机DNA序列版本,Kadonaga将其描述为“相当严重的计算”。他们分析了每个DPR活动,并使用了200,000个版本来创建机器学习模型这可能会以这种准确性预测人类DNA的DPR活性。
Kadonaga将结果描述为“荒谬的好”,他们创建了类似的机器学习模型来以新的方式识别Tata框序列。在评估了数千个测试用例的新模型之后,TATA框和DPR结果显示出“令人难以置信的”预测能力。
结果还表明人类基因具有DPR主题。虽然在塔塔盒中识别六个基础非常简单,但为DPR破解19个基础的代码要困难得多。
Kadonaga解释说这是因为没有明确的序列模式,因此找不到DPR。教授说,就像在DNA序列中加密信息一样,人类无法破译,但机器学习模型可以。
他说:“现在可以解释很多无法解释的事情。”他补充说,人工智能可以进一步用于分析DNA序列模式,以增强研究人员理解和控制人类细胞基因激活的能力。
这归技术时代拥有
由CJ Robles撰写