[发明专利]信息处理方法、装置、计算机设备和存储介质在审
申请号: | 202210032655.1 | 申请日: | 2022-01-12 |
公开(公告)号: | CN114333784A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 梁健龙;王健宗 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L15/04 | 分类号: | G10L15/04;G10L15/18;G10L17/18 |
代理公司: | 北京辰权知识产权代理有限公司 11619 | 代理人: | 付婧 |
地址: | 518048 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息处理 方法 装置 计算机 设备 存储 介质 | ||
1.一种信息处理方法,其特征在于,所述方法包括:
获取待处理的语音内容,所述语音内容至少包括第一发言人的语音内容;
基于所述语音内容中语音的静音片段,将所述语音内容划分为多个语音片段;
基于所述语音片段的声纹特征,确定同一发言人对应的语音片段;
提取所述发言人的语音片段中包含的身份关键词和/或禁语关键词;
如果所述语音片段中包含身份关键词,则基于所述身份关键词确定所述发言人是否是所述第一发言人;
如果所述语音片段中包含禁语关键词,则分析禁语关键词的语音片段的语义,得到所述发言人的发言质量的评估结果。
2.根据权利要求1所述的信息处理方法,其特征在于,所述基于所述语音内容中语音的静音片段,将所述语音内容划分为多个语音片段,包括:
在所述语音内容的静音停顿处作为切割点将所述语音内容划分为多个语音片段,其中,所述静音停顿处满足以下条件之一:静音片段持续第一预设时长、静音片段第二预设时长内有占比大于预设比例的时长是静音且没有超过第三预设时长的连续非静音。
3.根据权利要求1所述的信息处理方法,其特征在于,所述基于所述语音片段的声纹特征,确定同一发言人对应的语音片段,包括:
对多个语音片段的声纹进行聚类,得到多个聚类结果;
确定每个聚类结果中的多个语音片段对应于同一发言人。
4.根据权利要求1所述的信息处理方法,其特征在于,所述提取所述发言人的语音片段中包含的身份关键词和/或禁语关键词,包括:
分别将每个聚类结果的语音片段转换为文本数据;
采用自然语言处理方式,提取所述语音片段进行身份关键词和/或禁语关键词。
5.根据权利要求4所述的信息处理方法,其特征在于,所述分别将每个聚类结果的语音片段转换为文本数据,包括:
将语音片段转写为文本数据,对所述文本数据进行字母大小写转换;
根据历史发言人会话文本数据判断文本转写合理或文本转写错误,所述历史发言人会话文本数据是命中服务禁语的发言人会话内容且命中的禁语关键词是转写错误的。
6.根据权利要求4所述的信息处理方法,其特征在于,所述根据历史发言人会话文本数据判断文本转写合理或文本转写错误,包括:
收集一批历史发言人会话文本数据,所收集的历史发言人会话文本数据是命中服务禁语关键词的发言人会话内容且命中的服务禁语关键词是转写错误的;
基于收集到的历史发言人会话文本数据,训练语言模型;
对命中服务禁语关键词的发言人会话内容进行预测,基于语言模型通过历史发言人会话文本数据计算句子概率,句子概率的计算值超过句子概率阈值时判断文本转写合理,否则判断文本转写错误。
7.根据权利要求1所述的信息处理方法,其特征在于,所述如果所述语音片段中包含身份关键词,则基于所述身份关键词确定所述发言人是否是所述第一发言人,包括:
对所述身份关键词进行归一化处理,得到所述身份关键词的第一特征数据;
采用计算特征之间的距离的方式,将所述第一特征数据与预设的表征第一发言人身份的第一特征信息进行相似度比较得到相似度比较结果,根据所述比较结果确定所述发言人是否是第一发言人;
对所述禁语关键词进行归一化处理,得到所述禁语关键词的第二特征数据;
采用计算特征之间的距离的方式,将所述第二特征数据与预设的表征服务禁语的第二特征信息进行匹配度比较得到匹配度比较结果,对所述发言人的服务质量进行评价。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210032655.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:数据核验方法、装置、电子设备及存储介质
- 下一篇:一种流体输送的异常检测系统