
伊利湖中間有一個水療中心。它有一個桑拿浴室,一個蒸汽室,甚至還有一個充滿雪的隔間。樓上,有豪華休息室,一個巨大的圖書館,著名藝術家的精選藝術收藏以及帶落地窗的全景演講劇院。乘客正忙於用餐,周圍是侍酒師,在優質的餐館裡。
下面有一個甲板,有一個原始的,最先進的實驗室,裡面裝滿了高科技設備,兩次數百萬美元的潛水艇可以使乘客降低1,000英尺(300米)。一組科學家正在篩選水樣並實時分析它們,查看浮游生物在水中漂浮時的遺傳指紋。
維京的Octantis Cruise船的研究人員正在研究環境DNA(EDNA) - 漂浮在水中,漂流在空氣中或徘徊在土壤中的遺傳物質。每當一個生物穿過環境時,它就會散發出其遺傳物質的微小位。
科學家首先註意到了幾十年前這種遺傳材料的痕跡,但是得益於功能強大的測序技術,他們現在開始分析Edna以表徵食物網,揭示了久違的瀕危物種的位置,並顯示如果捕食者潛伏在人類和野生動植物衝突的地區。
但是該技術有一個問題:它產生了很多數據,因此研究人員難以分析所有數據。現在,科學家正在努力結合人工智慧(AI)具有尖端測序,以快速識別給定生態系統中生物體類型和數量的變化。最終,該信息可以提供有關地球如何運作的實時觀點,並使我們能夠更快地適應生態變化。
“ AI將能夠以我們的其他技術沒有能力的方式撤出[信息]。”Zachary Gold,國家海洋和大氣管理局(NOAA)太平洋海洋環境實驗室的海洋分子生態學計劃的研究負責人。他告訴Live Science:“更快,更好,更快的數據使我們能夠做以前從未夢想過的事情。”
環境數據的寶庫
1980年代,一項研究描述了一種從土壤樣品中獲取DNA的技術。但是直到2000年代那樣快而準確的DNA測序機廣泛可用而且負擔得起,使Edna分析實用。
下一代測序(NGS)現在允許科學家快速分析DNA - 現在可以在一天之內對整個人類基因組進行測序。對於Edna,NGS意味著可以從單個水樣品中鑑定出數千種物種。測序技術是高度先進的,但是從中分析和得出有意義的結論的能力需要大量的計算能力,並且可能需要多年的科學家時間。
物理樣本可能需要幾天到一個月的時間到序列,然後序列回來後,必須下載許多千兆字節的數據並“清潔” - 也就是說,通過計算機檢查錯誤,重複或格式化問題。只有這樣,才能分析已驗證的數據集。
在下一步,AI可以變革。
戈德說:“研究人員可以花幾個月的時間來瀏覽這些數據,以嘗試了解和確定這些數據中最有趣,最有力的故事和資產,但是AI可以在幾秒鐘內做到這一點。 ” 。
一群浮動實驗室
維京人開始研究埃德娜的部分原因是大流行。最初要求該公司使用聚合酶鏈反應(PCR)進行COVID-19,但是一旦逐步淘汰了該要求,將其船上的設備重新使用,以便對水樣進行實時測試。郵輪公司與NOAA合作在2020年,科學家加入維京的探險隊在2022年前往大湖。
現在,這艘673英尺長(205 m)的巡航船上的科學家分析了他們經過的水域中的浮游植物,每次訪問同一地區時,都會提供生態系統的快照。該團隊說,與傳統的科學研究探險(昂貴且不規則)相比,旅遊船節省了時間和金錢 - 無論如何,遊船正在進行這些航行 - 食物要好得多。
在他們的浮動實驗室中,現在與維京合作的研究人員序列浮游植物。 “它們是地球上生命的關鍵。”艾莉森·庫西克(Allison Cusick),加州大學聖地亞哥分校Scripps海洋學研究所的研究人員,他在維京的一家船舶實驗室工作,在南極等偏遠地區學習Edna。浮游植物是大多數海洋食品網的基礎,它們會產生地球的一半通過光合作用。庫西克說,浮游植物物種之間的差異是令人震驚的 - 兩種類型之間的多樣性可能大於人類和真菌之間的多樣性。
水中浮游生物類型的變化是生物多樣性和海洋健康的關鍵指標 - 轉移可能會帶來食物網,並帶來毀滅性的後果。
使用EDNA分析發現物種與它們採取的不同進化路徑之間的進化關係,例如,當引入一個特定基因時,可以幫助科學家預測氣候變化將如何影響不同的物種。Benoit Morin,Ifremer(法國國家海洋科學技術研究所)的超級計算機工程師。
莫林告訴《現場科學》:“通過看過去,我們可以嘗試了解未來。”
埃德娜的“謎項目”
為了真正有力,維京 - 諾阿(Viking-Noaa)合作等項目將需要將人工智能納入EDNA分析。
已經,AI被用於尋找潛在的新物種來自相機陷阱和自動監視系統的大數據集。它也被用來重新發現丟失的物種,包括嚴重瀕危的物種溫頓的金色痣((Cryptochloris Wintoni),直到使用埃德娜(Edna)追踪到它,已經有80多年的歷史了。
但是,為了使這些努力發揮其全部潛力,需要將AI技術完善並整合到EDNA分析中。
一旦科學家收集了EDNA樣本,他們就會通過條形碼進行分析,該編碼可以尋找一個物種或有機體或一次識別多種物種。條形碼是一系列獨特的DNA序列,用於通過將其與在線參考數據庫進行比較來識別生物體。
LeTizia Lamperti在法國的ÉcolePratiquedes odtudes(實用的高級研究學校)的數學工程師正在開發一種機器學習系統,以基於基於特定環境的健康狀況來揭示特定環境的健康,並基於內部的生物體數量和數量樣本。反過來,這些信息可以指出潛在的修復。
例如,如果在水樣中,產生毒素的浮游植物的浮游植物有所增加,則可能可以將這些變化固定在供養浮游植物的農業徑流中。
2023年,Lamperti和她的同事發表了一項研究表明神經網絡(模仿人腦過濾和處理信息的方式的多層機器學習算法)比其他基於其EDNA緊密相關的生物進行分組的統計方法更好。但是,就像面部識別技術一樣,AI可能會更好地檢測豐富的物種,在這些物種上有很多“訓練”數據,但在發現稀有生物方面的有效性較小。
最近的幾項研究表明,EDNA研究中AI的潛力有希望。例如,一項研究發現AI可以在樣品中識別出90%的未知物種,即使與密切相關的生物相關的序列沒有類似的序列進行比較。
如果AI能夠發揮其潛力,那麼我們理解環境的轉變將是巨大的。 Cusick將其比作艾倫·圖靈(Alan Turing)在第二次世界大戰期間對德國人的謎代碼的解密。她告訴Live Science:“這將是變革性的。”
“很多東西都不困難;它只是採用現有的工具。我們只需要將自行車指向正確的方向。”
Zachary Gold
AI可以以無與倫比的規模識別新發現的物種。進化關係可以在眼睛的眨眼中確定。可以改變監視和計劃環境變化。例如,通過快速分析EDNA樣本,AI可以實時提醒游泳者吃大腦的變形蟲或水道上的鯊魚,或預測事件在威脅公共衛生之前,諸如有害藻類盛開之類的事件- 類似於我們現在在手機上獲得天氣警報的方式。
因此,從理論上講,資源可以迅速重定向以解決問題,然後才能成為問題。
戈爾德說,這一目標是可以實現的,但是要花費多長時間將取決於開發AI的資源。
物種詞典
目前,AI缺少一些重要的東西:有組織的良好數據量以發現關鍵模式。這些數據需要根據其DNA作為參考數據庫或物種詞典放在一個地方。
Lamperti告訴Live Science:“我們需要參考數據庫來執行物種識別。” “問題是我們沒有它。”
為了識別物種,AI需要通過對數據和數據的培訓來學習個體和密切相關物種的關鍵特徵或條形碼。但是生物多樣性數據集不在公開可用的存儲庫中,也不採用精心策劃的標準化格式,這些格式可以被征服,可以被培訓,定制的AI系統。 “埃德娜還沒有準備就緒,”戈爾德說。
在美國,僅在過去的十年中就收集了大約40,000個EDNA樣品,估計黃金,但其中很多都無法訪問。他說,這可能是“用某人的閣樓或某人科學論文的補充方法。”
為了得出有用的結論以幫助我們保護和管理環境,AI需要從基準數據庫中學習,該數據庫捕獲了我們感興趣的環境中的生物多樣性。這是一項艱鉅的努力。戈爾德說:“這是數百萬美元;這是人們的時間。”
莫林目前正在從事這項任務,但這是一個緩慢且資源密集的過程。他和他的同事正在通過Atlasea項目,旨在測序4,500種海洋物種的基因組。此信息將存放在科學界的開放式數據庫中。 Ifremer現在正在與數據基礎架構公司NetApp合作,以對所收集的信息進行分類。
戈德說,有了資金來開發數據集,AI Edna工具就可以“非常快”。 “毫無疑問,我們正在做的事情在技術上並不困難。這只是我們沒有資源。如果我們真的想這樣做並大規模動員,我毫無疑問,下一次在洛杉磯的奧運會[在2028年,我們可以設置工具,資源和網絡,並準備好執行此操作。”
如果投資和資源以目前的速度繼續,黃金估計這將是“緩慢的滴流”,我們將在15年內到達那裡。但是他很樂觀的時間尺度可能會更快。戈爾德說:“很多東西都不難;這只是拿走已經存在的現有工具。” “我們只需要將自行車指向正確的方向。”
在科學聚光燈,Live Science可以更深入地了解新興的科學,並為您提供這些進步所需的觀點。我們的故事重點介紹了不同領域的趨勢,新的研究如何改變舊思想以及我們生活的世界的形像如何通過科學而改變。