[发明专利]一种流式语音识别方法有效

申请号：	201911121372.9	申请日：	2019-11-15
公开（公告）号：	CN110942764B	公开（公告）日：	2022-04-22
发明（设计）人：	杨德兴	申请（专利权）人：	北京达佳互联信息技术有限公司
主分类号：	G10L15/04	分类号：	G10L15/04;G10L15/22;G10L15/26
代理公司：	北京博思佳知识产权代理有限公司 11415	代理人：	王茹
地址：	100085 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开提供了一种流式语音识别方法，一方面将待检测语音片段发送给语音端点检测端，根据返回结果抽除待检测语音片段中的静音数据，只保留有效语音数据进行识别，减少所需的语音识别计算资源。一方面将每段语音片段末尾的未结束片段存入状态数据库，以将状态数据库作为多个语音片段的上下文状态保存装置，进一步避免语音识别引擎维护音频流上下文数据造成的资源消耗，以及维护状态信息带来的扩展性差和可靠性降低问题。

技术领域

本公开涉及语音识别技术领域，尤其涉及一种流式语音识别方法。

背景技术

随着移动互联网和多媒体技术的发展，包含音频流的产品形态也越来越多，比如常见的直播应用、语音聊天室应用等。对音频流(流式语音)进行语音识别，识别后得到的文字结果对于内容安全审核，内容分析打标签等都有非常重要的作用。

在传统方案中，对音频流做语音识别时，通常由客户端将音频流的多个连续语音片段数据都发送给语音识别引擎，由语音识别引擎依次识别并返回识别结果。这样做每台引擎能够并发识别的音频流数量不高，对于一个并发直播上万的产品来说，如果要覆盖识别所有的直播流，会造成很大的计算资源消耗。

发明内容

针对上述技术问题，本公开实施例提供一种流式语音识别方法，技术方案如下：

根据本公开实施例的第一方面，提供一种流式语音识别方法，包括：

将待检测语音片段发送给语音端点检测端，根据返回结果确定所述待检测语音片段中的无效子片段；

在待检测语音片段中抽除所述无效子片段，得到被所述无效子片段分割的多个有效子片段，其中，有效子片段包含有效语音数据，无效子片段包含静音数据；

在所述待检测语音片段的末尾片段为有效子片段的情况下，将所述末尾片段存入状态数据库，将除末尾片段外的其他有效子片段按照时间顺序拼接为待识别有效语音片段；

将所述待识别有效语音片段发送给语音识别端，以获得识别结果。