多年来,研究人员一直试图理解大脑活动,希望有一天能够直接读懂大脑。这对于那些失去沟通能力的人来说特别有益,因为我们可以为他们创建更有效的人机界面。
不幸的是,该领域进展最快的研究领域是那些使用最具侵入性技术的研究领域。我们刺穿头骨,将电极直接放置在皮质上,从而尽可能靠近神经元记录大脑活动。例如,这是什么神经链接,埃隆·马斯克的公司。但 Meta 研究人员认为,借助人工智能,非侵入式途径也是可能的。
利用脑电图(EEG)或脑磁图(MEG)等超经典捕获技术,他们成功创建了一个模型,能够从记录的大脑活动中识别受试者刚刚听到的单词。更准确地说,该系统可以以高达 73% 的概率找到正确的单词,即使该单词在学习阶段并不属于词典的一部分。这就是研究人员所说的“零样本解码»。
当它是非侵入性的时,它是不精确的
这令人印象深刻,因为脑电图和脑磁图是特别不精确的记录技术。尽管它们使用数百个传感器并且能够每秒捕获一千次大脑活动,但它们“众所周知,噪音很大,并且由于各种原因(包括每个人的大脑和传感器位置的差异),录音会话和个人之间的差异很大”,在博客笔记中强调 Meta。
为了减少这种噪音,研究人员实际上让两个神经网络并行工作。第一个分析歌词(“语音模型”)和第二个大脑活动(“大脑模型”)。这些网络由 179 名志愿者 150 小时的脑电图和脑磁图记录组成,这些志愿者被要求听有声读物和孤立的句子。称为“的学习阶段对比学习» 然后将大脑信号与正确的发声时刻进行匹配。结果是语音的大脑表征,显然足以有效地抵消捕获技术的不精确性。
我们的方法:
我们开发了一种对比学习架构,将大脑信号与其相应的语音对齐。
我们的“语音模块”依赖于经过 56k 小时语音预训练的自监督架构:wav2vec 2.0pic.twitter.com/zgGuDGcux8
— 让·雷米·金 (@JeanRemiKing)2022 年 8 月 31 日
另一个优点:这种做法会限制每个患者对数据的需求。“要求患者在扫描仪前花费数十个小时来检查[解码]系统是否适合他们是不切实际的。相反,算法可以在包括许多个体和条件的大型数据集上进行预训练,然后用很少的数据接管解码新患者的大脑活动。,研究人员强调。
对于 Meta 来说,下一步将不是解码听到的单词,而是解码大脑中形成的单词。这实际上是最终目标,因为它最终将使创建如此梦想的著名人机界面成为可能。
来源 : 元