[发明专利]敏感词词典生成方法、装置及存储介质和电子设备在审

申请号：	201811501581.1	申请日：	2018-12-10
公开（公告）号：	CN111310451A	公开（公告）日：	2020-06-19
发明（设计）人：	陈希;杜永青	申请（专利权）人：	北京沃东天骏信息技术有限公司
主分类号：	G06F40/284	分类号：	G06F40/284;G06F40/247
代理公司：	北京德琦知识产权代理有限公司 11018	代理人：	衣淑凤;宋志强
地址：	100032 北京市海淀区杏石口路6***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	敏感词典生成方法装置存储介质电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提出敏感词词典生成方法、装置及存储介质和电子设备。方法包括：将每个非敏感用户的每个交互文档以及每个敏感用户在距离当前时刻第一预设时长之前的每个交互文档分别作为一个负样本；将每个敏感用户在最近第二预设时长内的每个交互文档分别作为一个正样本；对于在正负样本集合中出现的每个词，计算该词对正样本集合的逆文档频率以及该词对负样本集合的逆文档频率；对于在正负样本集合中出现的每个词，根据该词对正样本集合的逆文档频率以及该词对负样本集合的逆文档频率，计算该词的逐点KL散度，若计算出的逐点KL散度小于预设第一阈值，则将该词加入敏感词词典库。本发明提高了敏感词词典的生成效率和覆盖率。

技术领域

本发明涉及文档处理技术领域，尤其涉及敏感词词典生成方法、装置及非瞬时计算机可读存储介质和电子设备。

背景技术

目前在电商领域，客服人员需要实时地识别用户从购物过程到售后各环节在聊天沟通的过程中是否有不满的情绪，以做到主动服务、提前安抚，最终提升用户的满意度，提高客户保有率和复购率。目前一般做法是，首先根据历史投诉人员的会话统计信息设计出表达客户情绪的威胁词表，用于识别客户威胁程度的强弱，再按照关键字匹配从分词后的聊天记录和电话录音中筛选出潜在的有投诉风险的用户。

在构建威胁词典过程中需要比较发生投诉的用户和正常用户在对话中的表达差异。

现有技术方案中大量依赖人工经验操作，效率较低且经验会随着时间推移而弱化，不支持自动迭代更新，更重要的是人工方式覆盖率有限，而且威胁信号间没有相对强弱关系。

发明内容

本发明实施例提出敏感词词典生成方法、装置及非瞬时计算机可读存储介质和电子设备，以提高敏感词词典的生成效率和覆盖率。

本发明实施例的技术方案是这样实现的：

一种敏感词词典生成方法，该方法包括：

将每个非敏感用户的每个交互文档以及每个敏感用户在距离当前时刻第一预设时长之前的每个交互文档分别作为一个负样本；

将每个敏感用户在最近第二预设时长内的每个交互文档分别作为一个正样本；

对于在正负样本集合中出现的每个词，计算该词对正样本集合的逆文档频率以及该词对负样本集合的逆文档频率；

对于在正负样本集合中出现的每个词，根据该词对正样本集合的逆文档频率以及该词对负样本集合的逆文档频率，计算该词的逐点KL散度，若计算出的逐点KL散度小于预设第一阈值，则将该词加入敏感词词典库。

所述计算该词对正样本集合的逆文档频率包括：

IDF1_i＝lg(|D1|/(1+|{j:w_i∈d1_j}|))