[发明专利]一种流式语音识别方法有效
| 申请号: | 201911121372.9 | 申请日: | 2019-11-15 |
| 公开(公告)号: | CN110942764B | 公开(公告)日: | 2022-04-22 |
| 发明(设计)人: | 杨德兴 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
| 主分类号: | G10L15/04 | 分类号: | G10L15/04;G10L15/22;G10L15/26 |
| 代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 王茹 |
| 地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 语音 识别 方法 | ||
本公开提供了一种流式语音识别方法,一方面将待检测语音片段发送给语音端点检测端,根据返回结果抽除待检测语音片段中的静音数据,只保留有效语音数据进行识别,减少所需的语音识别计算资源。一方面将每段语音片段末尾的未结束片段存入状态数据库,以将状态数据库作为多个语音片段的上下文状态保存装置,进一步避免语音识别引擎维护音频流上下文数据造成的资源消耗,以及维护状态信息带来的扩展性差和可靠性降低问题。
技术领域
本公开涉及语音识别技术领域,尤其涉及一种流式语音识别方法。
背景技术
随着移动互联网和多媒体技术的发展,包含音频流的产品形态也越来越多,比如常见的直播应用、语音聊天室应用等。对音频流(流式语音)进行语音识别,识别后得到的文字结果对于内容安全审核,内容分析打标签等都有非常重要的作用。
在传统方案中,对音频流做语音识别时,通常由客户端将音频流的多个连续语音片段数据都发送给语音识别引擎,由语音识别引擎依次识别并返回识别结果。这样做每台引擎能够并发识别的音频流数量不高,对于一个并发直播上万的产品来说,如果要覆盖识别所有的直播流,会造成很大的计算资源消耗。
发明内容
针对上述技术问题,本公开实施例提供一种流式语音识别方法,技术方案如下:
根据本公开实施例的第一方面,提供一种流式语音识别方法,包括:
将待检测语音片段发送给语音端点检测端,根据返回结果确定所述待检测语音片段中的无效子片段;
在待检测语音片段中抽除所述无效子片段,得到被所述无效子片段分割的多个有效子片段,其中,有效子片段包含有效语音数据,无效子片段包含静音数据;
在所述待检测语音片段的末尾片段为有效子片段的情况下,将所述末尾片段存入状态数据库,将除末尾片段外的其他有效子片段按照时间顺序拼接为待识别有效语音片段;
将所述待识别有效语音片段发送给语音识别端,以获得识别结果。
可选的,所述得到被所述无效子片段分割的多个有效子片段后,还包括:
在所述待检测语音片段的末尾片段为无效子片段的情况下,将分割出的多个有效子片段按照时间顺序拼接为待识别有效语音片段。
可选的,所述待检测语音片段的获取方式,包括:
接收目标语音片段,检查状态数据库中是否缓存了所述目标语音片段的前序子片段,其中,流式语音由多个连续语音片段组成,所述目标语音片段的前序子片段为所述目标语音片段的上个语音片段的末尾有效子片段;
若状态数据库中缓存了所述前序有效子片段,将所述前序有效子片段拼接在目标语音片段的开端,将拼接后的语音片段确定为待检测的语音片段。
可选的,所述接收目标语音片段,检查状态数据库中是否缓存了所述目标语音片段的前序子片段,包括:
接收目标语音片段,确定所述目标语音片段所携带的音频流标识,在状态数据库中查找携带同样音频流标识的有效子片段;
若查找到携带同样音频流标识的有效子片段,则将查找到的有效子片段确定为目标语音片段的前序有效子片段。
可选的,所述接收目标语音片段,检查状态数据库中是否缓存了所述目标语音片段的前序子片段,包括:
接收目标语音片段,确定所述目标语音片段所携带的音频流标识,在状态数据库中查找携带同样音频流标识的有效子片段;
若未查找到携带同样音频流标识的有效子片段,则直接将目标语音片段确根据本公开实施例的第二方面,提供一种流式语音识别装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911121372.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种模块化气溶胶灭火装置
- 下一篇:一种指纹识别芯片封装体及其制备方法





