人工智能解決了DNA激活代碼的難題，以識別75％的人類基因

2020-09-10

加利福尼亞大學聖地亞哥大學的研究人員使用人工智能來識別DNA激活代碼，該代碼以前被稱為“謎”，但後來可以用於N生物技術和生物醫學應用中。

長期以來，科學家知道人類基因是通過精確的DNA順序提供的指示確定的，並與四個“鹼”綁定，這些“鹼基”被編碼為A，C，G和T。紙於9月9日發表在《大自然》雜誌上。

塔塔阿（TataaA）序列也稱為塔塔（Tata）框，而剩下的75％由於DNA鹼基序列的可能性眾多，因此將近25％的基因也被稱為tata框。

但是，研究人員現在找到了激活代碼以幫助識別這些基因。加州大學聖地亞哥分校新聞中心報導說，它被稱為下游核心啟動子地區（DPR）。

加州大學聖地亞哥分校的生物科學系教授詹姆斯·T·卡多納加（James T.

卡多納加說：“ DPR一直是一個謎 - 是否存在於人類中，這是有爭議的。”

1996年，Kadonaga教授及其在水果蠅中工作的同事發現了一個新的基因激活序列，他們稱其為DPE。它源自DPR的一部分，即使沒有TATA框，也可以激活基因。

1997年，他們還發現了人類中的單個DPE序列。但是，他們在解釋人類DPE的細節和頻率方面並沒有成功。

大約23年後，Kadonaga與首席作家和博士後學者Long Vo Ngoc，Cassidy Yunjing Huang，Claudia Medrano和Jack Cassidy一起工作，後者是一位退休的計算機科學家，他們幫助利用強大的人工智能工具。

這項研究得到了美國國立衛生研究院國家一般醫學科學研究所的支持。

取得“荒謬的好”結果

在這項研究中，研究人員的量為500,000隨機DNA序列版本，Kadonaga將其描述為“相當嚴重的計算”。他們分析了每個DPR活動，並使用了200,000個版本來創建機器學習模型這可能會以這種準確性預測人類DNA的DPR活性。

Kadonaga將結果描述為“荒謬的好”，他們創建了類似的機器學習模型來以新的方式識別Tata框序列。在評估了數千個測試用例的新模型之後，TATA框和DPR結果顯示出“令人難以置信的”預測能力。

結果還表明人類基因具有DPR主題。雖然在塔塔盒中識別六個基礎非常簡單，但為DPR破解19個基礎的代碼要困難得多。

Kadonaga解釋說這是因為沒有明確的序列模式，因此找不到DPR。教授說，就像在DNA序列中加密信息一樣，人類無法破譯，但機器學習模型可以。

他說：“現在可以解釋很多無法解釋的事情。”他補充說，人工智能可以進一步用於分析DNA序列模式，以增強研究人員理解和控制人類細胞基因激活的能力。

這歸技術時代擁有

由CJ Robles撰寫