[发明专利]语料过滤方法与装置有效

专利信息
申请号: 201811241741.3 申请日: 2018-10-24
公开(公告)号: CN109376224B 公开(公告)日: 2020-07-21
发明(设计)人: 况鹏;左靖东 申请(专利权)人: 深圳市壹鸽科技有限公司
主分类号: G06F16/332 分类号: G06F16/332;G10L15/26;G10L15/20
代理公司: 北京超凡志成知识产权代理事务所(普通合伙) 11371 代理人: 吴迪
地址: 518000 广东省深圳市南山区粤海*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 语料 过滤 方法 装置
【权利要求书】:

1.一种语料过滤方法,其特征在于,所述语料过滤方法包括:

接收语音客服机器人发送的原始话轮语料;

将原始话轮语料转化文本字符集合,将文本字符集合划分为单字语料集合和词句语料集合;

将单字语料集合中未包含于预建立的有意义字表的话轮语料进行过滤、将词句语料集合中包含有预建立的非自然语音关键词表的负关键词的话轮语料进行过滤;

其中,所述将单字语料集合中未包含于预建立的有意义字表的话轮语料进行过滤、将词句语料集合中包含有预建立的非自然语音关键词表的负关键词的话轮语料进行过滤的步骤之后,所述语料过滤方法还包括:

分别提取单字语料集合中未被过滤的语料集合、词句语料集合中未被过滤的语料集合的基频特征位于预设定的人声学特征范围以内的激活语料帧;

分别计算单字语料集合中未被过滤的语料集合中的激活语料帧的帧数与总帧数的第一比值以及词句语料集合中未被过滤的语料集合的激活语料帧的帧数与总帧数的第二比值;

当第一比值小于预设定的第五阈值时,将单字语料集合中未被过滤的语料集合剔除;

当第二比值小于预设定的第五阈值时,将词句语料集合中未被过滤的语料集合剔除。

2.根据权利要求1所述的语料过滤方法,其特征在于,将单字语料集合中未包含于预建立的有意义字表的话轮语料进行过滤、将词句语料集合中包含有预建立的非自然语音关键词表的负关键词的话轮语料进行过滤的步骤之后,所述语料过滤方法还包括:

分别对单字语料集合中未被过滤的语料集合、词句语料集合中未被过滤的语料集合进行置信度估计;

当单字语料集合中未被过滤的语料集合的置信度小于预设定的第三阈值时,对单字语料集合中未被过滤的语料集合进行整体剔除;

当词句语料集合中未被过滤的语料集合的置信度小于预设定的第三阈值时,对词句语料集合中未被过滤的语料集合进行整体剔除。

3.根据权利要求2所述的语料过滤方法,其特征在于,所述语料过滤方法还包括:在对单字语料集合中未被过滤的语料集合进行整体剔除或词句语料集合中未被过滤的语料集合进行整体剔除同时,生成音频事件告警指令;

将音频事件告警指令反馈至所述语音客服机器人。

4.根据权利要求2所述的语料过滤方法,其特征在于,所述分别对单字语料集合中未被过滤的语料集合、词句语料集合中未被过滤的语料集合进行置信度估计的步骤包括:

分别统计出单字语料集合中未被过滤的语料集合、词句语料集合中未被过滤的语料集合、包含于预设定的正语料集合的第一正关键词字数和、第二正关键词字数和,并依据算式S=C/D计算出单字语料集合中未被过滤的语料集合的第一置信度、词句语料集合中未被过滤的语料集合的第二置信度,当S为单字语料集合中未被过滤的语料集合的第一置信度时,C为单字语料集合中未被过滤的语料集合包含于预设定的正语料集合的第一正关键词字数和,D为单字语料集合中未被过滤的语料集合,当S为词句语料集合中未被过滤的语料集合的第二置信度时,C为词句语料集合中未被过滤的语料集合包含于预设定的正语料集合的第二正关键词字数和,D为词句语料集合中未被过滤的语料集合。

5.根据权利要求4所述的语料过滤方法,其特征在于,所述预设定的正语料集合为通过预设定的正语料词表减去预设定的负语料词表获得的语料差集,并从语料差集中提取的词频大于预设定的第四阈值的正关键词的集合。

6.根据权利要求1所述的语料过滤方法,其特征在于,所述语料过滤方法还包括:

在将词句语料集合中包含有预建立的非自然语音关键词表的负关键词的话轮语料进行过滤时,发出挂机指令至所述语音客服机器人。

7.根据权利要求1所述的语料过滤方法,其特征在于,所述预建立的有意义字表为预设定的时间内的历史话轮中,词频大于预设定的第一阈值的单字集合。

8.根据权利要求1所述的语料过滤方法,其特征在于,所述预建立的非自然语音关键词表为将预设定的时间内的历史话轮中包含非自然话语的话轮作为负语料集合,并提取负语料集合中词频大于预设的第二阈值的语料集合。

9.一种语料过滤装置,其特征在于,所述语料过滤装置包括:

信息接收单元,用于接收语音客服机器人发送的原始话轮语料;

语料划分单元,用于将原始话轮语料转化文本字符集合,将文本字符集合划分为单字语料集合和词句语料集合;

语料过滤单元,用于将单字语料集合中未包含于预建立的有意义字表的话轮语料进行过滤、将词句语料集合中包含有预建立的非自然语音关键词表的负关键词的话轮语料进行过滤;

激活语料帧提取单元,用于分别提取所述单字语料集合中未被过滤的语料集合、词句语料集合中未被过滤的语料集合的基频特征位于预设定的人声学特征范围以内的激活语料帧;

比值计算单元,用于分别计算所述单字语料集合中未被过滤的语料集合中的激活语料帧的帧数与总帧数的第一比值以及所述词句语料集合中未被过滤的语料集合的激活语料帧的帧数与总帧数的第二比值;

语料剔除单元,还用于当所述第一比值小于预设定的第五阈值时,将所述单字语料集合中未被过滤的语料集合剔除;当所述第二比值小于预设定的所述第五阈值时,将所述词句语料集合中未被过滤的语料集合剔除。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市壹鸽科技有限公司,未经深圳市壹鸽科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811241741.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top