人工智能可以以令人驚訝但仍然有限的精度來解碼大腦活動的單詞和句子。 AI僅使用幾秒鐘的大腦活動數據,猜測一個人聽到的內容。研究人員在一項初步研究中發現,它在最多73%的時間中列出了正確的十大可能性。
AI的“表現超出了許多人在此階段的可能性,”都柏林三一學院的計算機科學家Giovanni Di Liberto說。
AI在Facebook的母公司Meta的母公司開發,最終可用於幫助世界各地成千上萬的人無法通過語音,打字或手勢進行交流,研究人員於8月25日在Arxiv.org報告。其中包括許多具有最低意識,鎖定或“營養狀態”的患者 - 現在通常稱為無反應的清醒綜合徵((SN:2/8/19)。
大多數現有的技術來幫助此類患者進行交流需要危險的腦部手術到植入電極。這種新的方法“可以提供一條可行的途徑來幫助患有溝通缺陷的患者……而無需使用侵入性方法,”神經科學家Jean-RémiKing說。
金和他的同事訓練了一種計算工具,以檢測53種語言的56,000小時語音記錄的單詞和句子。該工具(也稱為語言模型)學會瞭如何在細粒度層面上識別語言的特定特徵(例如字母或音節),並且在更廣泛的層面(例如單詞或句子)上。
該團隊將具有此語言模型的AI應用於來自四個機構的數據庫,其中包括來自169名志願者的大腦活動。在這些數據庫中,參與者聽取了例如歐內斯特·海明威(Ernest Hemingway)的各種故事和句子老人和大海還有劉易斯·卡羅爾(Lewis Carroll)愛麗絲'仙境中的冒險雖然使用磁腦圖或腦電圖掃描人民的大腦。這些技術測量了大腦信號的磁性或電氣成分。
然後,借助一種計算方法,有助於解決實際大腦之間的身體差異,該團隊試圖解碼參與者使用每個人的大腦活動數據僅三秒鐘的信息。該團隊指示AI將故事錄音的語音調整為AI計算的大腦活動模式,以對應於人們所聽到的內容。然後,它可以預測該人在短時間內可能正在聽到的內容,這有超過1000種可能性。
研究人員發現,使用磁腦攝影或MEG,正確的答案是在AI的前十名猜測中最多73%。隨著腦電圖的影響,該值下降到不超過30%。迪·利比托(Di Liberto)說:“ [MEG]表現非常好,但他對其實際使用不太樂觀。 “我們該怎麼辦?什麼都沒有。絕對什麼都沒有。 ”
他說,原因是梅格需要一台笨重且昂貴的機器。將這項技術帶到診所將需要科學創新,使機器更便宜,更易於使用。
密歇根大學的語言學家喬納森·布倫南(Jonathan Brennan)說,了解本研究中“解碼”在這項研究中的真正含義也很重要。這個詞通常用於描述直接從源中解密信息的過程 - 在這種情況下,是大腦活動的語音。但是,AI可以這樣做,只是因為它提供了有限的正確答案列表以進行猜測。
布倫南說:“使用語言,如果我們想擴展實際用途,這不會削減它,因為語言是無限的。”
更重要的是,Di Liberto說,AI解碼參與者被動地收聽音頻的信息,這與非語言患者無直接相關。為了使其成為一種有意義的溝通工具,科學家將需要學習如何從大腦活動中解密這些患者打算說的話,包括飢餓,不適或簡單的“是”或“否”的表達。
金表示,新的研究是“對語音感知的解碼,而不是生產”。儘管語音製作是最終目標,但目前,“我們還有很長的路要走。”