研究人员探索听觉系统如何实现准确的语音识别

为了使人类能够实现准确的语音识别并相互通信,听觉系统必须从连续输入的声音流中识别不同类别的声音 - 例如单词。当考虑具有不同重音,音高或语调的个体产生的声音的可变性时,该任务变得复杂。

在最近的Nature Communications论文中,匹兹堡斯旺森工程学院生物工程博士候选人Shi Tong Liu详述了一个计算模型,该模型探讨了听觉系统如何应对这一复杂任务。该研究由神经生物学助理教授Srivatsun Sadagopan领导,他的实验室研究在逼真的聆听条件下对复杂声音的感知。

“一个'字'可能会以不同的方式通过不同的声音发音,但你仍然能够将所有这些话语都归为一个具有不同含义的类别(一个特定的词),”Sadagopan说。“在这项研究中,我们通过使用动物调用作为一个大大简化的模型系统来检查大脑是如何实现这一目的的。声音动物物种如mar猴,猕猴和豚鼠产生几种具有不同行为'意义的呼叫',但它们还面临着不同的动物产生这些呼叫的问题,并且存在很多变化。“

已发表的论文“听觉分类的最佳特征”侧重于普通mar猴的发声。约翰斯·霍普金斯大学生物医学工程教授王晓琴提供了大量的mar猴发声,捕捉到这些声音的广泛变化。然后,该团队使用信息理论和“贪婪”搜索算法来查找尽管存在所有可变性但始终发生的每种发声类型的特征。他们的策略是选择一组共同最大化性能的功能,但要避免彼此过于相似的功能。

“我们为我们的算法提供了一系列Marmoset调用,并要求它找到最具信息性且始终可识别的特征,”刘解释说。“最终输出是一组'信息量最大的特征',它们是特定呼叫类型的特征 - 非常类似于脸部的区别特征(例如,在图像中寻找眼睛或鼻子)。通过检测是否存在这些信息在传入声音中具有最丰富的信息,可以非常精确地识别发声类型。“

在显示出在理论模型中有效的特征之后,团队返回动物以测试大脑是否实际上正在寻找这些信息特征。当他们在小琴王的实验室当研究生时,Sadagopan将他们的模型数据与mar猴听觉皮层记录的神经反应进行了比较,他们发现了有趣的结果。

“神经证据支持我们的模型,这意味着它可以作为未来研究的坚实基础,”刘说。“我们的模型能够有效,准确地预测大脑在发声时所听到的内容。这项研究有助于推进语音识别技术和听觉假肢,我计划用这项工作更好地理解大脑如何在拥挤中隔离相关声音空间“。

该团队的工作得到了美国国家耳聋协会和其他交流障碍研究所(NIDCD),宾夕法尼亚州狮子听力研究基金会以及塞缪尔和艾玛温特斯基金会的研究资助。