对于许多瘫痪且无法说话的人来说,他们想要表达的语音信号隐藏在他们的大脑中,没有人能够直接破译这些信号。但是最近有三个研究小组在将大脑上的电极数据转换成语音方面的研究取得了进展,他们通过被称为神经网络的计算模型,重建了可以被人类听众理解的单词和句子。
最近几个月以来,正如在bioRxiv杂志上发布的论文中表示,他们还是没法完全重建仅仅存在于人们大脑里的语音信息。但另一方面,研究人员在人们大声朗读、轻声细语、或者听录音的时候,监视大脑的某些部分活动。瑞士日内瓦大学的神经工程师斯蒂芬妮・马丁(Stephanie Martin)表示,重新演绎人们脑海中的语音信息这一做法“令人兴奋兴奋不已”。
图片来自网络
在中风或疾病之后失去说话能力的人可以使用他们的眼睛或做出其他小动作来控制光标或选择屏幕上的字母。 比如说,物理学家斯蒂芬・霍金通过拉紧他的脸颊,触发安装在眼镜上的开关。但如果脑机接口可以直接重现他们的语音,他们能够做到的事情会更多:例如,控制音调音量,或者有能力插话。
事实上,要想将这一想法付诸实践,困难重重。“我们试图找出在不同时间点打开和关闭的神经元模式,以此推断语言信息。” 哥伦比亚大学的计算机科学家Nima Mesgarani说:“从一个映射到另一个映射,这一过程非常复杂。”这些信号转换为语音的情况因人而异,因此必须对每个人“因材施教”。这些模型需要非常精确的数据支持,也就是说,需要打开头骨直接寻找神经元。
研究人员只能在极少数情况下进行此类研究,其中一个便是在移除脑肿瘤期间,暴露的大脑的电子读数能够帮助外科医生找到语言区域和运动区域;另一种则是当癫痫患者植入电极以确定手术前癫痫发作的起因时。对于数据收集,Mesgarani如是说:“在此过程中,我们的操作时间最多只有20至30分钟,时间真是非常宝贵。”
研究团队通过将信息提供给神经网络来获取大部分宝贵数据,神经网络通过将信息传递到计算“节点”层来处理复杂模式,而神经网络也能够通过调整节点之间的连接来学习。在实验中,神经网络的运算依赖于一个人发出或听到的语音记录以及同步的大脑活动的数据。
Mesgarani的团队通过五名癫痫患者的数据进行研究,他们的网络分析了听觉皮层(在语音和听力过程中都很活跃)的录音,因为那些病人听到了故事录音和人们从0读到9的录音。然后计算机仅从神经数据重建录音中的数字。计算机“读出”人们脑海中数字的准确度高达75%。
由德国不来梅大学的神经科学家Miguel Angrick和荷兰马斯特里赫特大学的神经科学家Christian Herff领导的另一个团队,则依靠六名接受脑肿瘤手术志愿者的数据。他们捕捉到了这些患者朗读单音节词的声音,同时,还记录下大脑的语音规划区域和运动区域,为了吐字清晰,向声道发送的命令。神经网络将电极读数映射到音频记录,然后根据先前的脑数据重建单词。根据计算机化的评分系统,大约40%的生成单词能够被理解。
图片来自网络
最后,加州大学旧金山分校的神经外科医生Edward Chang和他的团队重建了三名癫痫患者大声朗读时,在他们的语言和运动区域捕获的完整句子。在相关的网络测试中,166人需要从10个书面语句中选择出一句他们听过的句子,神经网络识别句子的正确率达到了80%。研究人员还进一步改善了模型:通过人们默读时记录的数据,来重建句子。荷兰科学家Herff表示,这是一个重要的研究成果, “使得识别语音技术更进一步”。
然而,“我们真正需要解决的问题是当患者不能说话时,以上这些方法能如何表现。”加州圣地亚哥州立大学研究语言生产的神经科学家StephanieRiès表示。当一个人默读或“听到”大脑活动与实际说出的话不同时,大脑会发出信号。但如果没有外部声音来匹配大脑活动,计算机甚至很难理清内部语音开始和结束位置。
奥尔巴尼纽约州卫生部国家神经技术中心的神经工程师Gerwin Schalk说,构建脑海中的语音信息需要“跳跃式思维”,目前 “根本不清楚如何做到这一点。”Herff表示,根据大脑和计算机界面的用户提供反馈:如果他们能够实时听到计算机的语音解释,他们也许能够迅速调整他们的想法以获得更为精准的表达。