[发明专利]敏感词词典生成方法、装置及存储介质和电子设备在审

申请号：	201811501581.1	申请日：	2018-12-10
公开（公告）号：	CN111310451A	公开（公告）日：	2020-06-19
发明（设计）人：	陈希;杜永青	申请（专利权）人：	北京沃东天骏信息技术有限公司
主分类号：	G06F40/284	分类号：	G06F40/284;G06F40/247
代理公司：	北京德琦知识产权代理有限公司 11018	代理人：	衣淑凤;宋志强
地址：	100032 北京市海淀区杏石口路6***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	敏感词典生成方法装置存储介质电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种敏感词词典生成方法，其特征在于，该方法包括：

将每个非敏感用户的每个交互文档以及每个敏感用户在距离当前时刻第一预设时长之前的每个交互文档分别作为一个负样本；

将每个敏感用户在最近第二预设时长内的每个交互文档分别作为一个正样本；

对于在正负样本集合中出现的每个词，计算该词对正样本集合的逆文档频率以及该词对负样本集合的逆文档频率；

对于在正负样本集合中出现的每个词，根据该词对正样本集合的逆文档频率以及该词对负样本集合的逆文档频率，计算该词的逐点KL散度，若计算出的逐点KL散度小于预设第一阈值，则将该词加入敏感词词典库。

2.根据权利要求1所述的方法，其特征在于，所述计算该词对正样本集合的逆文档频率包括：

IDF1_i＝lg(|D1|/(1+|{j:w_i∈d1_j}|))

其中，D1表示正样本集合，|D1|表示D1中包含的正样本的总数，w_i表示在正负样本集合中出现的第i个词，d1_j表示正样本集合中的第j个正样本，|{j:W_i∈d1_j}|表示包含词w_i的正样本的总数，IDF1_i表示词w_i对正样本集合的逆文档频率；

所述计算该词对负样本集合的逆文档频率包括：

IDF2_i＝lg(|D2|/(1+|{k:w_i∈d2_k}|))

其中，D2表示负样本集合，|D2|表示D2中包含的负样本的总数，w_i表示在正负样本集合中出现的第i个词，d2_k表示负样本集合中的第k个负样本，|{k:W_i∈d2_k}|表示包含词w_i的负样本的总数，IDF2_i表示词w_i对负样本集合的逆文档频率。

3.根据权利要求2所述的方法，其特征在于，所述计算该词的逐点KL散度包括：

D_{kl_idf}(IDF1_i||IDF2_i)＝IDF1_i*ln(IDF1_i/(IDF2_i+ε))

其中，D_{kl_idf}(IDF1_i||IDF2_i)为词w_i的逐点KL散度，ε为预设的防止分母为0的小常数。

4.根据权利要求1至3任一所述的方法，其特征在于，所述预设第一阈值≤-0.5。

5.根据权利要求1所述的方法，其特征在于，当计算出的逐点KL散度小于预设第一阈值时，将该词加入敏感词词典库之前进一步包括：

计算该词对正样本集合的词频，当词频大于预设第二阈值时，将该词加入敏感词词库。

6.根据权利要求1所述的方法，其特征在于，所述将该词加入敏感词词典库之后进一步包括：

采用word2vec算法，将每一交互文档转换成一个向量空间，向量空间中的每个向量对应交互文档中的一个词；

对于每个向量空间，将该向量空间中的每个向量分别作为神经网络模型中的一个输入向量，将该向量空间中指定的一个向量作为神经网络模型的输出向量，对神经网络模型进行训练，得到训练好的神经网络模型；

采用word2vec算法，将敏感词词典库中的每个敏感词转换成一个向量，将所有敏感词转换成的向量划分为多个向量空间，将每个向量空间中的向量分别输入到神经网络模型进行计算，对计算得到的每个输出向量分别采用word2vec算法转换为词，将转换出的每个词加入敏感词词典库。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京沃东天骏信息技术有限公司，未经北京沃东天骏信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811501581.1/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载