新的“读心”系统使语音合成技术更接近真实的人声
据外媒CNET报道,一项新技术可以在很大程度上将大脑活动转化为合成语音,从而真正地恢复那些失去谈话能力的人的天赋。加州大学旧金山分校(UCSF)的神经科学家创建了一个脑机界面,通过一个新颖的两步过程来解释来自大脑语言区的信号。
研究人员不是试图将大脑活动直接转化为声音,而是将神经信号转换为人的声道用来以数字方式创造这些声音的运动。
结果是人工语音更接近真实的人声,并且开始接近正常的谈话速度。
“我们展示了使用计算机模拟明确模拟参与者声带的运动 - 包括嘴唇、舌头、下颌、喉部......这可能会产生大脑活动的最佳语音解码,”加州大学旧金山分校神经外科教授 Edward Chang周二告诉记者。
去年,麻省理工学院采用了一种切向相关的方法,使用耳机接收从大脑发送到嘴巴和下巴的信号。
新系统正在Chang的实验室中开发,该团队的进展在周三发表在《自然》杂志上的一篇新论文中有所概述。
研究人员与少数志愿者进行了这项研究,这些志愿者已经在他们的大脑中植入了临时电极,为神经外科治疗癫痫做准备。当他们的大脑活动被记录下来时,他们被要求大声读出几百个句子。这些数据以及参与者语音的录音,使科学家们能够创建一个虚拟的声道。然后,可以通过大脑活动来控制用于创建语音的解剖结构的详细计算机模拟。下面的视频显示了一些结果示例。
“这项研究首次表明,我们可以根据个人的大脑活动生成完整的口语句子,”Chang在一份声明中说。“这是一个令人振奋的原理证据,即已经触手可及的技术,我们应该能够构建一种在语言丢失患者中具有临床可行性的设备。”
目前,许多严重语言障碍患者的设备需要逐字拼写思考,每分钟最多产生10个单词。但是一个可以翻译整个句子的系统可以让人们更快速地进行交流,甚至可以以接近每分钟100-150个自然语音的速度进行交流。
“作者的两阶段方法导致声学失真明显减少,”未参与研究的生物医学工程师Chethan Pandarinath和Yahia H. Ali说道。“然而,仍然存在许多挑战......重建语音的可懂度仍远低于自然语音的清晰度。”
新研究的共同作者Josh Chartier坚持认为,他们的系统产生的准确性水平会改进现有技术,但承认有一种方法可以完美地模仿口语。
“我们非常善于合成较慢的语音,如sh和z,以及保持语音的节奏和语调以及说话者的性别和身份,但是一些更生硬的声音,如b和p得到有点模糊。“
另一个有希望的发现是,用于声音运动的神经代码不一定是每个人独有的。“无法移动手臂和腿的人已经学会用大脑控制机器人肢体,”Chartier说。“我们希望有一天,有语言障碍的人能够学会用这种脑控制的人工声道再次说话。”
【来源:cnBeta.COM】