[发明专利]敏感主题词集的生成方法和装置有效
申请号: | 201610431062.7 | 申请日: | 2016-06-16 |
公开(公告)号: | CN107515877B | 公开(公告)日: | 2021-07-20 |
发明(设计)人: | 王经委;张杰伟;张霄;欧林鑫;罗伟 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/332;G06F40/284 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆;胡彬 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 敏感 主题词 生成 方法 装置 | ||
本发明实施例公开了一种敏感主题词集的生成方法和装置。所述方法包括:根据用户的敏感查询语句构建主题词库;根据所述主题词库中包括的各主题词之间的上下文关系,计算与各主题词对应的上下文词向量;基于所述各主题词及对应的上下文词向量,生成敏感主题词集。本发明实施例的技术方案,实现了根据用户的查询语句对敏感词数量有限的敏感词表进行主题扩充,得到属于相同主题且具有上下文关系的词集,进而提高了基于上下文主题的敏感词识别效率以及准确度。
技术领域
本发明实施例涉及信息处理技术,尤其涉及一种敏感主题词集的生成方法和装置。
背景技术
随着互联网的飞速发展,基于文本的网络服务已经深入到人们生活的各个方面。由于网络文本服务具有内容丰富、互动性强、实时性强的优势,基于文本的网络服务早已成为移动互联网的一项重要业务。
但是网络文本服务在给人们带来便利的同时,不可避免地也会散播一些未经证实的消息或不良内容,很多情况下均会出现违反国家法律法规并损害公众利益的言行,如:色情词汇等等,为了维护国家法律和公民权益,营造一个良好的互联网使用环境,越来越多的网络文本服务中集成了敏感词识别并过滤的功能。例如搜索引擎的一项重要任务就是识别并过滤用户的查询语句中的敏感词。现有的敏感词识别技术一般是通过建立色情词表,将查询语句中的词与所述色情词表中的词一一匹配,进而判断查询语句中是否含有敏感词,但是这种方法一方面对于查询语句中出现的新词无法判断,另一方面对于查询语句中的歧义词可能错误判断。
发明内容
有鉴于此,本发明实施例提供一种敏感主题词集的生成方法和装置,以根据用户的敏感查询语句得到属于相同主题且具有上下文关系的主题词集,进而提高了基于上下文主题的敏感词识别效率以及准确度。
在第一方面,本发明实施例提供了一种敏感主题词集的生成方法,所述方法包括:
根据用户的敏感查询语句构建主题词库;
根据所述主题词库中包括的各主题词之间的上下文关系,计算与各主题词对应的上下文词向量;
基于所述各主题词及对应的上下文词向量,生成敏感主题词集。
在第二方面,本发明实施例还提供了一种敏感词识别方法,所述方法包括:
获取用户输入的查询式;
根据所述查询式,以及通过本发明实施例所述的敏感主题词集的生成方法生成的所述敏感主题词集,生成观测序列;
将所述观测序列输入至基于所述敏感主题词集训练生成的敏感词识别模型中;
根据所述敏感词识别模型的返回结果,识别所述查询式中包括的敏感词。
在第三方面,本发明实施例提供了一种敏感主题词集的生成装置,所述装置包括:
主题词库构建模块,用于根据用户的敏感查询语句构建主题词库;
上下文词向量计算模块,用于根据所述主题词库中包括的各主题词之间的上下文关系,计算与各主题词对应的上下文词向量;
敏感主题词集生成模块,用于基于所述各主题词及对应的上下文词向量,生成敏感主题词集。
在第四方面,本发明实施例还提供了一种敏感词识别装置,所述装置包括:
查询式获取模块,用于获取用户输入的查询式;
观测序列生成模块,用于根据所述查询式,以及通过本发明实施例所述的敏感主题词集的生成装置生成的所述敏感主题词集,生成观测序列;
观测序列输入模块,用于将所述观测序列输入至基于所述敏感主题词集训练生成的敏感词识别模型中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610431062.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种特征模型的生成、应用方法及装置
- 下一篇:一种数据索引的管理方法及装置