一种神经脑植入物可实现近即时语音

一种神经脑植入物可实现近即时语音

专注于声音生成而非词汇选择可构建一个灵活的系统。

一名坐在轮椅上的男子被戴着手套和外科口罩的女子连接到头骨上的硬件设备上。 一名坐在轮椅上的男子被戴着手套和外科口罩的女子连接到头骨上的硬件设备上。

受试者的植入物连接进行测试。信用:加州大学董事会

英国物理学家斯蒂芬·霍金(Stephen Hawking)使用安装在眼镜中的传感器与外界交流。该传感器通过脸颊单块肌肉的微小运动在屏幕上选择字符。当霍金每分钟输入一个单词时,文本会通过DECtalk TC01合成器转换为语音,赋予他标志性的机械音。

但自霍金于2018年去世后,情况已发生巨大变化。近期的脑机接口(BCI)设备已能将神经活动直接转化为文本和语音。不幸的是,这些系统存在显著延迟,通常限制用户使用预定义词汇库,且无法处理语音的音调或语调等细微差别。现在,加州大学戴维斯分校的科学家团队开发出一种神经假肢,可即时将脑信号转化为声音——音素和单词。这可能是我们迈向完全数字化声带的第一步。

短信交流

“我们的主要目标是创建一种灵活的语音神经假肢,使瘫痪患者能尽可能流畅地说话,掌控自己的语速,并通过调节语调更富有表现力。”加州大学戴维斯分校神经假肢研究者Maitreyee Wairagkar领导了这项研究。开发一款满足所有这些要求的假肢是一项巨大挑战,这意味着Wairagkar的团队必须解决过去BCI通信解决方案面临的几乎所有问题。他们面临的问题相当多。

第一个问题是超越文本——迄今为止最成功的神经假肢大多将脑信号转化为文本,患者想表达的词语会直接出现在屏幕上。弗朗西斯·R·威利特(Francis R. Willett)领导的斯坦福大学团队实现了约25%错误率的脑到文本翻译。“当一名ALS患者尝试说话时,他们可以解码词语。四分之三的词语是正确的。这非常令人兴奋,但不足以进行日常交流。”加州大学戴维斯分校神经科学家Sergey Stavisky和研究论文的资深作者说道。

延迟与词典

在斯坦福大学研究一年后,2024年Stavisky团队发表了自己关于脑到文本系统的研究成果,将准确率提升至97.5%。“几乎每个词都是正确的,但通过文本交流确实有局限,对吧?”Stavisky说。“有时你想要用声音。这让你能发出语气词,减少他人打断你的可能性——你可以唱歌,可以使用不在词典中的词汇。”但最常见的语音生成方法依赖于从文本合成语音,这直接导致了BCI系统的另一个问题:极高的延迟。

几乎所有BCI语音辅助设备中,句子在屏幕上出现的时间都显著滞后于患者在脑海中串联词语完成的时间。语音合成部分通常在文本准备好后才进行,这进一步增加了延迟。脑到文本解决方案还受到词汇量的限制。最新系统支持的词汇量约为1300个单词。当你试图说其他语言、使用更复杂的词汇,甚至说出附近咖啡馆的不寻常名称时,系统会失败。

因此,Wairagkar设计了她的假肢,将脑信号转化为声音而非词语,并且实时完成。

提取声音

同意参与Wairagkar研究的受试者被代号为T15,是一名46岁的ALS患者。“他严重瘫痪,当他试图说话时,很难听懂。我认识他多年,当他说话时,我可能只能理解他所说的5%。”研究合著者、神经外科医生David M. Brandman说道。在与加州大学戴维斯分校团队合作之前,T15使用陀螺仪头控鼠标控制电脑屏幕上的光标。

要使用Stavisky早期的脑到文本系统,患者需将256个微电极植入前额叶皮层的腹侧部分,这是控制声带肌肉的脑区。

对于新的脑到语音系统,Wairagkar和她的同事依赖相同的256个电极。“我们从单个神经元记录神经活动,这是我们可以从大脑获取的最高分辨率信息。”Wairagkar说。电极记录的信号随后发送给一个名为神经解码器的AI算法,该算法解析信号并提取音调或发声等语音特征。下一步,这些特征被输入到一个称为声码器的语音合成算法中,该算法设计成听起来像T15正常说话时的声音。整个系统延迟降至约10毫秒——将脑信号转化为声音几乎即时完成。

由于Wairagkar的神经假肢将脑信号转化为声音,因此不受支持词汇量的限制。患者可以说任何想说的话,包括不在词典中的伪词和语气词如“嗯”、“唔”或“呃”。由于系统对音调或语调等特征敏感,他还能通过在句子末尾提高音调发出疑问句,甚至唱一段简短的旋律。

但Wairagkar的假肢也有其局限。

可理解性改进

为了测试假肢的性能,Wairagkar团队首先让人类听众将T15患者的合成语音录音与一组六个相似长度句子的文本转录进行匹配。在这里,结果完全完美,系统实现了100%的可理解性。

问题出现在团队尝试更困难的任务时:开放转录测试,听众无需任何候选文本。在第二次测试中,词错误率高达43.75%,意味着参与者正确识别了超过一半的录音单词。这与T15未辅助说话时的可理解性相比确实有所改进,后者在相同听众群体中进行的相同测试中词错误率为96.43%。但假肢虽然前景广阔,尚未足够可靠用于日常交流。

“我们尚未达到可以用于开放式对话的阶段。我认为这只是一个概念验证。”Stavisky说。他建议未来设计的一个改进方向是使用更多电极。“目前有很多初创公司正在开发超过千个电极的BCI。如果你想想我们仅用250个电极就取得的成果,与使用1000或2000个电极可能实现的成果相比——我认为它将有效工作。”他论证道。而实现这一目标的工作已经展开。

位于德克萨斯州奥斯汀的BCI初创公司Paradromics希望推进语音神经假肢的临床试验,并已寻求FDA批准。“他们拥有1600个电极的系统,并公开表示将进行语音相关研究。”Stavisky说。“我们的合著者David Brandman将担任这些试验的主要研究者,我们将在这里加州大学戴维斯分校进行。”

《自然》,2025年。DOI: 10.1038/s41586-025-09127-3

Jacek Krywko照片

Comments

No comments yet. Why don’t you start the discussion?

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注