世界首創的非侵入式人工智慧系統可以將無聲的想法轉化為文本,同時只需要使用者戴上合適的帽子。
開發這項名為 DeWave 的技術的澳洲研究人員進行了測試過程使用了二十多位受試者的數據。
參與者戴著帽子默讀,透過腦電圖(EEG)記錄他們的腦電波並將其解碼為文字。
經過進一步改進,DeWave 可以幫助中風和癱瘓患者進行交流,並使人們更容易指揮仿生手臂或機器人等機器。
“這項研究代表了將原始腦電圖波直接翻譯成語言的開創性努力,標誌著該領域的重大突破,”說悉尼科技大學 (UTS) 的計算機科學家 Chin-Teng Lin。

儘管根據 Lin 及其同事進行的實驗中的兩組指標之一,DeWave 的準確度僅略高於 40%,但這比先前的腦電圖記錄思維轉換標準提高了 3%。
研究人員的目標是將準確率提高到 90% 左右,與傳統的語言翻譯或語音辨識軟體方法相當。
其他方法將大腦訊號翻譯成語言需要侵入性手術植入電極或體積龐大,昂貴的核磁共振機,這使得它們在日常使用中不切實際——而且它們經常需要使用眼動追蹤將大腦訊號轉換成單字級的塊。
當一個人的眼睛從一個單字跳到另一個單字時,可以合理地假設他們的大腦在處理每個單字之間會短暫休息。 原始腦電圖波轉換為單字(沒有眼動追蹤來指示相應的單字目標)更加困難。
不同人的腦電波並不都以完全相同的方式代表單字之間的中斷,這使得教導人工智慧如何解釋個人想法成為一個挑戰。
經過大量訓練後,DeWave 的編碼器將腦電圖波轉換為代碼,然後根據特定單字與 DeWave「密碼本」中條目的接近程度將其與特定單字進行配對。
“它是第一個將離散編碼技術納入大腦到文本翻譯過程的技術,引入了一種創新的神經解碼方法,”解釋林.
“與大型語言模型的整合也開啟了神經科學和人工智慧的新領域。”
Lin 和他的團隊使用經過訓練的語言模型,其中包括 BERT 與 GPT 的系統組合,並在現有資料集 人的誰有閱讀文字時記錄的眼球追蹤和大腦活動。
這有助於系統學習將腦電波模式與單字相匹配,然後 DeWave 接受了進一步的訓練開源大語言模型本質上是用單字造句。
動詞翻譯是 DeWave 表現最好的領域。 另一方面,名詞往往被翻譯為含義相同的單字對,而不是精確的翻譯,例如“the man”而不是“theauthor”。
“我們認為這是因為當大腦處理這些單字時,語義相似的單字可能會產生相似的腦電波模式,”說第一作者 Yiqun Duan,UTS 計算機科學家。
“儘管面臨挑戰,我們的模型還是產生了有意義的結果,對齊關鍵字並形成相似的句子結構。”
測試的相對較大的樣本量解決了人們的腦電圖波分佈差異很大的事實,這表明該研究比僅在非常小的樣本上進行測試的早期技術更可靠。
還有更多的工作要做,而且當透過帽子而不是植入大腦的電極接收腦電圖訊號時,訊號相當吵雜。
「直接從大腦翻譯思想是一項有價值但具有挑戰性的工作,需要持續不斷的努力,」該團隊寫。
“鑑於大型語言模型的快速發展,將大腦活動與自然語言聯繫起來的類似編碼方法值得更多關注。”
該研究發表於NeurIPS 2023 會議,預印本可在ArXiv。