[发明专利]长语音连续识别及识别结果实时反馈方法和系统有效
申请号: | 201210551379.6 | 申请日: | 2012-12-18 |
公开(公告)号: | CN103035243A | 公开(公告)日: | 2013-04-10 |
发明(设计)人: | 徐波;孟猛;高鹏 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G10L15/28 | 分类号: | G10L15/28 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 宋焰琴 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 连续 识别 结果 实时 反馈 方法 系统 | ||
技术领域
本发明涉及语音识别技术领域,特别地涉及一种长语音连续识别及语音识别结果的实时反馈方法及系统。
背景技术
随着移动互联网的发展,作为最自然高效的人机交互手段之一,语音识别及其相关技术越来越广泛的应用在生活中。语音识别不再仅仅是好看的花瓶.而是实实在在地进入了普通人的生活,给我们的社会带来便捷和快乐。
在实际应用中,对于面向大篇幅的语音信号输入进行实时语音识别的应用,传统的方法是采用在线端点检测的方法,对语音的起始点和结束点进行在线的检测,并通知在线解码器进行相应的操作:发现语音起始点后,启动在线语音识别,并对后续语音进行在线解码;发现语音结束点后,对已经处理完毕的解码状态记录进行回溯,获得最优历史路径及其对应的单词列表,即识别结果。该方法的问题在于:
一方面,在线端点检测的精度有限。端点检测算法通常采用短时能量和短时过零率分析的方法,或者采用基于模型的方法进行语音、非语音的分类。采用短时能量和短时过零率分析的方法,需要为语音非语音段的划分选择一个甚至多个门限,而该门限的选择很大程度上需要依赖于对实际语音的特点进行调整才能获得最优的效果。采用基于模型的方法进行语音、非语音的分类,则依赖于模型的语音训练样本与实际语音的一致性。因此,目前来说,较难获得一个通用且高效的端点检测算法。
另一方面,端点检测的标准仅仅是依赖于语音段和非语音段的判别,而实际上,完整的语音句子的分割更多的还依赖于语义的完整性。例如,在实际口语说话中,常常出现因为犹豫、语速慢或没有想清楚而出现句中停顿的现象,如果停顿时间稍长,语音的端点检测系统会因为误判为语音结束点而强行将一个完整的句子截成两段。再如,在表达一段比较长的意思时,很多人的说话习惯是一句说话之后,马上把下一句的连接词说完之后再做停顿,以告知其他人其意思尚未表达完。这种情况下,也会造成语音端点检测系统错误的对语音进行分割。总之,实际应用中,端点检测的目标与完整语义句子的分割目标并不是严格一致的。
从上面的分析可以看出,对于大篇幅的语音信号,采用将连续语音信号分割成独立的语音片断和非语音片断,然后对分割得到的语音片断进行识别的方法,有较多的局限性和依赖性。如上所述,分割结果不可避免的错误必然会带入后续的识别结果中,造成不必要的识别错误。
对于实际系统来说,用户对系统的响应速度有着越来越高的要求。采用在线语音识别技术,可以在语音输入的同时进行同步的实时解码,将所有可能的识别结果进行实时的同步扩展。一旦发现语音输入结束点,立即进行当前全局最优路径的回溯,从而获取识别结果。这种在线语音识别技术,节约了语音本身的输入时间,只需要较短的时间延迟,即可获取语音输入的识别结果。
但这种方式的一个局限性在于,需要到达一段语音的结束点,才确定该语音全局最优的识别结果。因为在这段语音的中间任一时刻,获得的当前时间最优路径仅仅是局部最优点,如果从局部最优点进行回溯,其结果并不一定与整段语音的识别结果相一致。因此,对于用户来说,至少需要等到一句话说完的一定时间之后,才能看到识别的结果。尤其在用户语速较密,端点检测方法较难判断语音结束点时,用户会等待较长的时间才能看到识别结果反馈,这是一种较差的用户体验。
发明内容
有鉴于此,为了更好的解决长语音信号连续识别问题,同时给用户更好的反馈体验,本发明提供了一种长语音连续识别及识别结果实时反馈方法及系统,在语音识别的过程中,减少对端点检测算法的依赖,更多的引入对语义完整性的判断,采用全局最优的方式寻找语音信号中句子的结束点,实现大篇幅语音连续识别;同时,实时检测当前时刻下已经确定的最优识别结果,无需等待句子结尾即可反馈给用户,从而提高响应速度。
为此,本发明提出了一种语音识别结果实时反馈方法,其包括:
步骤1,在识别的过程中,定期对目前所有活跃节点的历史路径的共有部分进行检测;
步骤2,对检测到的历史路径中的共有部分进行回溯,获得该历史路径的共有部分上的语音识别结果,并将其作为当前时刻已经确定下来的语音识别结果;
步骤3,判断所述固定下来的语音识别结果是否有更新,如果有,则反馈更新后的语音识别结果。本发明还提出了一种利用上述语音识别结果实时反馈方法所确定下来的语音识别结果的长语音信号连续识别方法,其包括:
构建支持从句尾结束点到识别起始点的扩展路径的解码识别网络;
接收连续语音信号,根据所述解码识别网络对所述连续语音信号中的每一帧进行解码;其中,解码时根据语调分析和静音持续时间调整句尾结束点到识别起始点的跳转概率;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210551379.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种增压发动机智能化双路进气装置
- 下一篇:双并联式重载静平衡运动模拟台