[发明专利]分句方法、装置、存储介质及电子设备在审
申请号: | 202111327536.0 | 申请日: | 2021-11-10 |
公开(公告)号: | CN113889113A | 公开(公告)日: | 2022-01-04 |
发明(设计)人: | 孙修松;刘艺;何怡;马泽君 | 申请(专利权)人: | 北京有竹居网络技术有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/04;G10L17/00 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 贾会玲 |
地址: | 101299 北京市平*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分句 方法 装置 存储 介质 电子设备 | ||
本公开涉及一种分句方法、装置、存储介质及电子设备。方法包括:获取目标音频数据;提取目标音频数据对应的语音识别文本以及语音识别文本中、每一识别字符在目标音频数据中所对应的第一时段;对目标音频数据进行说话人分割,得到目标音频数据中每个说话片段对应的第二时段;根据每一识别字符所对应的第一时段和每一说话片段对应的所述第二时段,对语音识别文本进行说话人分割,得到分句结果。由此,能够有效利用说话人时段信息和语音识别文本中每一字符在目标音频数据中所对应的时段,对语音识别文本进行说话人分割,实现对说话人转换处进行合理有效的切分,避免单个分句包含多个说话人说话内容的情况,提升了分句效果。
技术领域
本公开涉及语音识别技术领域,具体地,涉及一种分句方法、装置、存储介质及电子设备。
背景技术
在视频字幕场景语音识别应用中,需要对识别出的文本进行分句以进行分屏显示。而且为了保证字幕的可读性,往往要求单个分句只包含一个说话人,避免出现单屏字幕同时包含不同说话人说话内容的情况。常规的分句方法只是结合了语音识别文本的语义信息,对语义转折处进行切分。这种方法对于单说话人的视频有很好的效果,但是对于多说话人的对话场景视频,单纯使用语义信息会导致在说话人转换处切分效果较差,出现单个分句包含多个说话人说话内容的情况。
发明内容
提供该部分内容以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该部分内容并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
第一方面,本公开提供一种分句方法,包括:
获取目标音频数据;
提取所述目标音频数据对应的语音识别文本以及所述语音识别文本中、每一识别字符在所述目标音频数据中所对应的第一时段;
对所述目标音频数据进行说话人分割,得到所述目标音频数据中每个说话片段对应的第二时段;
根据每一所述识别字符所对应的所述第一时段和每一所述说话片段对应的所述第二时段,对所述语音识别文本进行说话人分割,得到分句结果。
第二方面,本公开提供一种分句装置,包括:
获取模块,用于获取目标音频数据;
提取模块,用于提取所述获取模块获取到的所述目标音频数据对应的语音识别文本以及所述语音识别文本中、每一识别字符在所述目标音频数据中所对应的第一时段;
第一分割模块,用于对所述获取模块获取到的所述目标音频数据进行说话人分割,得到所述目标音频数据中每个说话片段对应的第二时段;
第二分割模块,用于根据所述提取模块提取到的每一所述识别字符所对应的所述第一时段和所述第一分割模块得到的每一所述说话片段对应的所述第二时段,对所述语音识别文本进行说话人分割,得到分句结果。
第三方面,本公开提供一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现本公开第一方面提供的所述方法的步骤。
第四方面,本公开提供一种电子设备,包括:
存储装置,其上存储有一个或多个计算机程序;
一个或多个处理装置,用于执行所述存储装置中的所述一个或多个计算机程序,以实现本公开第一方面提供的所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京有竹居网络技术有限公司,未经北京有竹居网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111327536.0/2.html,转载请声明来源钻瓜专利网。