[发明专利]语音处理系统和方法有效
申请号: | 201680076211.0 | 申请日: | 2016-11-04 |
公开(公告)号: | CN108496219B | 公开(公告)日: | 2022-12-30 |
发明(设计)人: | 托马斯·威廉·约翰·ASH;安东尼·约翰·罗宾逊 | 申请(专利权)人: | 剑桥大学的校长;教师和学者 |
主分类号: | G10L15/193 | 分类号: | G10L15/193;G10L25/51;G09B19/06;G10L25/78;G10L15/187 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
地址: | 英国剑桥*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 处理 系统 方法 | ||
在一实施例中,提供了一种语音处理系统,其包括一输入,用于接收一用户所说的输入话语;以及一单词对齐单元,被配置为将声学语音模型的不同序列与用户所说的输入话语对齐,声学语音模型的每个不同序列对应于用户可能说出的一种不同可能话语并且标识:朗读提示文本中用户跳过的任何部分;所述朗读提示文本中用户重复的任何部分;以及所述朗读提示文本中用户在的单词之间插入的任何语音。来自所述单词对齐单元的信息可用于评估用户讲话的熟练度和/或流畅性。
技术领域
本发明涉及一种用于处理用户语音的系统和方法,本发明特别地,但并不唯一地与一种评估用户以给定语言口头对话的流畅性和熟练度的系统和方法有关。
背景技术
学习外语的用户通常需要参加考试以确定他们学习语言的流畅性和熟练度。这通常涉及用户说出给定的句子或短语,并由人类考官分析所说话语并给出表明考官对用户语言流畅性和熟练度的意见的评分或标记。这种人为标记会导致每个用户的评估和评分延迟-因为考官必须依次考虑每个用户,并且考官在给定时间段内可以考虑的用户数量有限。此外,为了避免不同考官所给出的评分之间的差异,在将评分指定给每个用户之前,通常由两个或多个考官考虑每个用户的语音,这进一步延迟了参加考试用户对考试结果的获取。
最近有人提出将标记过程电脑化以减少对人类考官的依赖。然而,很难创建一种能够确定用户的外语熟练度和/或流畅性并很好地符合人类考官所做的评估的计算机化的语言评估系统。本发明致力于提高计算机化评估系统的准确性。
发明内容
根据一方面,本发明提供一种语音处理系统,包括:一输入,用于接收一用户响应一朗读提示文本而说出的一输入话语;一声学模型存储器,存储声学语音模型;一朗读提示数据存储器,其存储所述朗读提示中标识了单词序列的文本数据;一数据存储器,其存储定义第一网络的数据,所述第一网络具有通过所述第一网络的多个路径,每条路径表示用户响应所述朗读提示文本而可能说出的一种不同可能话语,所述不同路径允许:i)所述用户跳过所述朗读提示文本的部分;ii)所述用户重复所述朗读提示文本的部分或全部;和iii)所述用户在所述朗读提示文本的单词之间插入语音声音;以及一单词对齐单元,被配置为将所述声学语音模型的不同序列与所述用户所说的所述输入话语对齐,声学语音模型的每个不同序列对应该不同可能话语中的一种,所述不同可能话语是用户响应由所述第一网络的一个路径所表示的所述朗读提示文本而做出的,并且输出对齐结果,所述对齐结果标识了:i)来自与所述用户所说的所述输入话语相匹配的由所述第一网络所表示的所有可能话语中的一种匹配可能话语;ii)所述用户跳过的所述朗读提示文本的任何部分;iii)所述用户重复的所述朗读提示文本的任何部分;和iv)所述用户在所述朗读提示文本的单词之间插入的任何语音声音。在一些实施例中,所述单词对齐单元还标识了所述匹配可能话语的单词和子词单元与所述用户所说的所述输入话语之间的时间对齐。
所述第一网络的不同路径允许所述朗读提示文本中的具有多个已知发音的一个或多个单词具有不同的词典发音,并且所述匹配可能话语标识了所述用户所说的具有多个已知发音的任何阅读提示词中的一个可能发音。
所述单词对齐单元可被配置为保持声学语音模型的不同序列与所述用户所说的所述输入话语之间的对齐的匹配评分,并且输出所述匹配可能话语的评分。所述声学语音模型可包括一个或多个无声模型,并且所述单词对齐单元可被配置为标识了所述用户话语中与一个或多个无声模型相匹配的部分。
根据另一方面,本发明提供一种语音处理系统,包括:一输入,用于接收一用户所说的输入话语;一语音识别系统,识别所述用户所说的所述输入话语并输出一识别结果,所述识别结果包括对应该输入话语的一系列已识别的词和子词单元;一声学模型存储器,存储声学语音模型;一单词对齐单元,被配置为接收由所述语音识别系统输出的该系列已识别的词和子词单元,并将与接收到的该系列已识别的词和子词单元对应的一系列声学语音模型与用户所说的输入话语对齐,并输出一对齐结果,该对齐结果标识了所接收的该系列已识别的单词和子词单元与用户所说的输入话语之间的时间对齐。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于剑桥大学的校长、教师和学者,未经剑桥大学的校长、教师和学者许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201680076211.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:多显示器设备以及用于控制多显示器设备的方法
- 下一篇:自适应量化