
使用的大脑植入物(AI)几乎可以立即解码一个人的思想,并通过演讲者进行流式传输。这是研究人员第一次实现近乎同步的脑对声流。
实验性思维读力技术旨在为无法说话的严重瘫痪者提供综合声音。它是通过将电极放在大脑表面上的作用,作为植入物的一部分神经假体,这使科学家可以识别和解释语音信号。
根据脑部计算机界面(BCI)使用AI来解码神经信号,并可以实时播放大脑的预期语音。加利福尼亚大学(UC),伯克利。该团队以前公布了早期版本该技术在2023年,但新版本更快且机器人更少。
流媒体的脑部到声学神经假体以恢复自然主义交流 - YouTube
“我们的流媒体方法将诸如Alexa和Siri等设备的快速语音解码能力带到了神经phosthes,”研究联合研究员Gopala Anumanchipalli加州大学伯克利分校的电气工程和计算机科学助理教授在声明中说。 “使用类似类型的算法,我们发现我们可以解码神经数据,并且首次启用了近同步的语音流。”
Anumanchipalli和他的同事在周一(3月31日)在《期刊》上发表的一项研究中分享了他们的发现。。
有关的:
第一个试用该技术的人(被称为Ann)在2005年遭受了中风,这使她严重瘫痪并且无法说话。此后,她允许研究人员将253个电极植入大脑,以监测控制语音(称为运动皮层)的大脑部分,以帮助开发合成语音技术。
“我们本质上是在拦截思想转化为发音的信号,并在该电动机控制的中间。”一个cho,加州大学伯克利分校的电气工程和计算机科学博士生在声明中说。 “因此,在我们决定说什么单词以及如何移动声音肌肉之后,我们决定要说些什么之后,我们正在解码。”
AI解析了植入物采样的数据,以帮助将神经活动转化为综合语音。团队通过安静地尝试说出出现在她面前的屏幕上的句子,然后将神经活动与她想说的单词相匹配,从而训练了他们的AI算法。
该研究显示,该系统每80毫秒(0.08秒)对大脑进行采样,并可以检测单词并将其转换为语音,并延迟延迟约3秒钟。与正常对话相比,这有点慢,但是比以前的版本更快,该版本的延迟约为8秒,只能处理整个句子。
新系统受益于将神经活动短的窗口转换为旧系统,因此它可以连续处理单个单词而不是等待完成的句子。研究人员说,这项新研究是迈向与BCIS实现更自然的合成语音的一步。
乔说:“这个概念验证框架是一个突破。” “我们很乐观,现在我们可以在各个层面上取得进步。例如,在工程方面,我们将继续推动算法,以了解如何更好,更快地生成语音。”