[发明专利]语料过滤方法与装置有效
| 申请号: | 201811241741.3 | 申请日: | 2018-10-24 |
| 公开(公告)号: | CN109376224B | 公开(公告)日: | 2020-07-21 |
| 发明(设计)人: | 况鹏;左靖东 | 申请(专利权)人: | 深圳市壹鸽科技有限公司 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G10L15/26;G10L15/20 |
| 代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 吴迪 |
| 地址: | 518000 广东省深圳市南山区粤海*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语料 过滤 方法 装置 | ||
1.一种语料过滤方法,其特征在于,所述语料过滤方法包括:
接收语音客服机器人发送的原始话轮语料;
将原始话轮语料转化文本字符集合,将文本字符集合划分为单字语料集合和词句语料集合;
将单字语料集合中未包含于预建立的有意义字表的话轮语料进行过滤、将词句语料集合中包含有预建立的非自然语音关键词表的负关键词的话轮语料进行过滤;
其中,所述将单字语料集合中未包含于预建立的有意义字表的话轮语料进行过滤、将词句语料集合中包含有预建立的非自然语音关键词表的负关键词的话轮语料进行过滤的步骤之后,所述语料过滤方法还包括:
分别提取单字语料集合中未被过滤的语料集合、词句语料集合中未被过滤的语料集合的基频特征位于预设定的人声学特征范围以内的激活语料帧;
分别计算单字语料集合中未被过滤的语料集合中的激活语料帧的帧数与总帧数的第一比值以及词句语料集合中未被过滤的语料集合的激活语料帧的帧数与总帧数的第二比值;
当第一比值小于预设定的第五阈值时,将单字语料集合中未被过滤的语料集合剔除;
当第二比值小于预设定的第五阈值时,将词句语料集合中未被过滤的语料集合剔除。
2.根据权利要求1所述的语料过滤方法,其特征在于,将单字语料集合中未包含于预建立的有意义字表的话轮语料进行过滤、将词句语料集合中包含有预建立的非自然语音关键词表的负关键词的话轮语料进行过滤的步骤之后,所述语料过滤方法还包括:
分别对单字语料集合中未被过滤的语料集合、词句语料集合中未被过滤的语料集合进行置信度估计;
当单字语料集合中未被过滤的语料集合的置信度小于预设定的第三阈值时,对单字语料集合中未被过滤的语料集合进行整体剔除;
当词句语料集合中未被过滤的语料集合的置信度小于预设定的第三阈值时,对词句语料集合中未被过滤的语料集合进行整体剔除。
3.根据权利要求2所述的语料过滤方法,其特征在于,所述语料过滤方法还包括:在对单字语料集合中未被过滤的语料集合进行整体剔除或词句语料集合中未被过滤的语料集合进行整体剔除同时,生成音频事件告警指令;
将音频事件告警指令反馈至所述语音客服机器人。
4.根据权利要求2所述的语料过滤方法,其特征在于,所述分别对单字语料集合中未被过滤的语料集合、词句语料集合中未被过滤的语料集合进行置信度估计的步骤包括:
分别统计出单字语料集合中未被过滤的语料集合、词句语料集合中未被过滤的语料集合、包含于预设定的正语料集合的第一正关键词字数和、第二正关键词字数和,并依据算式S=C/D计算出单字语料集合中未被过滤的语料集合的第一置信度、词句语料集合中未被过滤的语料集合的第二置信度,当S为单字语料集合中未被过滤的语料集合的第一置信度时,C为单字语料集合中未被过滤的语料集合包含于预设定的正语料集合的第一正关键词字数和,D为单字语料集合中未被过滤的语料集合,当S为词句语料集合中未被过滤的语料集合的第二置信度时,C为词句语料集合中未被过滤的语料集合包含于预设定的正语料集合的第二正关键词字数和,D为词句语料集合中未被过滤的语料集合。
5.根据权利要求4所述的语料过滤方法,其特征在于,所述预设定的正语料集合为通过预设定的正语料词表减去预设定的负语料词表获得的语料差集,并从语料差集中提取的词频大于预设定的第四阈值的正关键词的集合。
6.根据权利要求1所述的语料过滤方法,其特征在于,所述语料过滤方法还包括:
在将词句语料集合中包含有预建立的非自然语音关键词表的负关键词的话轮语料进行过滤时,发出挂机指令至所述语音客服机器人。
7.根据权利要求1所述的语料过滤方法,其特征在于,所述预建立的有意义字表为预设定的时间内的历史话轮中,词频大于预设定的第一阈值的单字集合。
8.根据权利要求1所述的语料过滤方法,其特征在于,所述预建立的非自然语音关键词表为将预设定的时间内的历史话轮中包含非自然话语的话轮作为负语料集合,并提取负语料集合中词频大于预设的第二阈值的语料集合。
9.一种语料过滤装置,其特征在于,所述语料过滤装置包括:
信息接收单元,用于接收语音客服机器人发送的原始话轮语料;
语料划分单元,用于将原始话轮语料转化文本字符集合,将文本字符集合划分为单字语料集合和词句语料集合;
语料过滤单元,用于将单字语料集合中未包含于预建立的有意义字表的话轮语料进行过滤、将词句语料集合中包含有预建立的非自然语音关键词表的负关键词的话轮语料进行过滤;
激活语料帧提取单元,用于分别提取所述单字语料集合中未被过滤的语料集合、词句语料集合中未被过滤的语料集合的基频特征位于预设定的人声学特征范围以内的激活语料帧;
比值计算单元,用于分别计算所述单字语料集合中未被过滤的语料集合中的激活语料帧的帧数与总帧数的第一比值以及所述词句语料集合中未被过滤的语料集合的激活语料帧的帧数与总帧数的第二比值;
语料剔除单元,还用于当所述第一比值小于预设定的第五阈值时,将所述单字语料集合中未被过滤的语料集合剔除;当所述第二比值小于预设定的所述第五阈值时,将所述词句语料集合中未被过滤的语料集合剔除。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市壹鸽科技有限公司,未经深圳市壹鸽科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811241741.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种维修系统的信息交互方法、系统及相关组件
- 下一篇:聊天机器人装置及系统





