[发明专利]分句方法、装置、存储介质及电子设备在审

申请号：	202111327536.0	申请日：	2021-11-10
公开（公告）号：	CN113889113A	公开（公告）日：	2022-01-04
发明（设计）人：	孙修松;刘艺;何怡;马泽君	申请（专利权）人：	北京有竹居网络技术有限公司
主分类号：	G10L15/22	分类号：	G10L15/22;G10L15/04;G10L17/00
代理公司：	北京英创嘉友知识产权代理事务所(普通合伙) 11447	代理人：	贾会玲
地址：	101299 北京市平***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	分句方法装置存储介质电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开涉及一种分句方法、装置、存储介质及电子设备。方法包括：获取目标音频数据；提取目标音频数据对应的语音识别文本以及语音识别文本中、每一识别字符在目标音频数据中所对应的第一时段；对目标音频数据进行说话人分割，得到目标音频数据中每个说话片段对应的第二时段；根据每一识别字符所对应的第一时段和每一说话片段对应的所述第二时段，对语音识别文本进行说话人分割，得到分句结果。由此，能够有效利用说话人时段信息和语音识别文本中每一字符在目标音频数据中所对应的时段，对语音识别文本进行说话人分割，实现对说话人转换处进行合理有效的切分，避免单个分句包含多个说话人说话内容的情况，提升了分句效果。

技术领域

本公开涉及语音识别技术领域，具体地，涉及一种分句方法、装置、存储介质及电子设备。

背景技术

在视频字幕场景语音识别应用中，需要对识别出的文本进行分句以进行分屏显示。而且为了保证字幕的可读性，往往要求单个分句只包含一个说话人，避免出现单屏字幕同时包含不同说话人说话内容的情况。常规的分句方法只是结合了语音识别文本的语义信息，对语义转折处进行切分。这种方法对于单说话人的视频有很好的效果，但是对于多说话人的对话场景视频，单纯使用语义信息会导致在说话人转换处切分效果较差，出现单个分句包含多个说话人说话内容的情况。

发明内容

提供该部分内容以便以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。该部分内容并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

第一方面，本公开提供一种分句方法，包括：

获取目标音频数据；

提取所述目标音频数据对应的语音识别文本以及所述语音识别文本中、每一识别字符在所述目标音频数据中所对应的第一时段；

对所述目标音频数据进行说话人分割，得到所述目标音频数据中每个说话片段对应的第二时段；

根据每一所述识别字符所对应的所述第一时段和每一所述说话片段对应的所述第二时段，对所述语音识别文本进行说话人分割，得到分句结果。

第二方面，本公开提供一种分句装置，包括：

获取模块，用于获取目标音频数据；

提取模块，用于提取所述获取模块获取到的所述目标音频数据对应的语音识别文本以及所述语音识别文本中、每一识别字符在所述目标音频数据中所对应的第一时段；

第一分割模块，用于对所述获取模块获取到的所述目标音频数据进行说话人分割，得到所述目标音频数据中每个说话片段对应的第二时段；

第二分割模块，用于根据所述提取模块提取到的每一所述识别字符所对应的所述第一时段和所述第一分割模块得到的每一所述说话片段对应的所述第二时段，对所述语音识别文本进行说话人分割，得到分句结果。