多年來,研究人員一直試圖理解大腦活動,希望有一天能直接讀懂大腦。這對於那些失去溝通能力的人來說特別有益,因為我們可以為他們創建更有效的人機介面。
不幸的是,該領域進展最快的研究領域是那些使用最具侵入性技術的研究領域。我們刺穿頭骨,將電極直接放置在皮質上,從而盡可能靠近神經元來記錄大腦活動。例如,這是什麼神經連結,伊隆馬斯克的公司。但 Meta 研究人員認為,借助人工智慧,非侵入式途徑也是可能的。
利用腦電圖(EEG)或腦磁圖(MEG)等超經典捕獲技術,他們成功創建了一個模型,能夠從記錄的大腦活動中識別受試者剛剛聽到的單字。更準確地說,該系統可以以高達 73% 的機率找到正確的單詞,即使該單字在學習階段並不屬於字典的一部分。這就是研究人員所說的“零樣本解碼»。
當它是非侵入性的時,它是不精確的
這令人印象深刻,因為腦電圖和腦磁圖是特別不精確的記錄技術。儘管它們使用數百個感測器並且能夠每秒捕捉一千次大腦活動,但它們“眾所周知,噪音很大,並且由於各種原因(包括每個人的大腦和感測器位置的差異),錄音會話和個人之間的差異很大”,在博客筆記中強調 Meta。
為了減少這種噪音,研究人員實際上讓兩個神經網路並行工作。第一個分析歌詞(“語音模型”)和第二個大腦活動(“大腦模型”)。這些網絡由 179 名志願者 150 小時的腦電圖和腦磁圖記錄組成,這些志願者被要求聽有聲讀物和孤立的句子。稱為「的學習階段對比學習» 然後將大腦訊號與正確的發聲時刻進行配對。結果是語音的大腦表徵,顯然足以有效地抵消捕獲技術的不精確性。
我們的方法:
我們開發了一種對比學習架構,將大腦訊號與其對應的語音對齊。
我們的「語音模組」依賴經過 56k 小時語音預訓練的自監督架構:wav2vec 2.0pic.twitter.com/zgGuDGcux8
— 讓·雷米·金 (@JeanRemiKing)2022 年 8 月 31 日
另一個優點:這種做法會限制每位患者對資料的需求。「要求患者在掃描儀前花費數十個小時來檢查[解碼]系統是否適合他們是不切實際的。相反,演算法可以在包括許多個體和條件的大型資料集上進行預訓練,然後用很少的資料接管解碼新患者的大腦活動。,研究人員強調。
對 Meta 來說,下一步將不是解碼聽到的單詞,而是解碼大腦中形成的單字。這實際上是最終目標,因為它最終將使創建如此夢想的著名人機介面成為可能。
來源 : 元