[发明专利]基于知识图谱的敏感文本检测方法及系统有效
申请号: | 202111535596.1 | 申请日: | 2021-12-16 |
公开(公告)号: | CN113963357B | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 张静磊;叶蔚;张世琨;谢睿;温国昌 | 申请(专利权)人: | 北京大学 |
主分类号: | G06V30/19 | 分类号: | G06V30/19;G06V30/10;G06V10/774;G06F16/36;G06F16/35 |
代理公司: | 北京华创智道知识产权代理事务所(普通合伙) 11888 | 代理人: | 周倩 |
地址: | 100081*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 知识 图谱 敏感 文本 检测 方法 系统 | ||
1.基于知识图谱的敏感文本检测方法,其特征在于,包括:
爬取网络中现有知识,对所述现有知识进行预处理,得到知识图谱网络;
获取网络中的敏感文本,对所述敏感文本进行预处理,得到训练语料;
根据所述训练语料和所述知识图谱网络得到文本检测模型的编码信息,将所述编码信息转化为向量表示,得到最终的所述文本检测模型;
所述训练语料包括实体和与所述实体对应的实例,对所述实例的前后位置处插入自定义标识,不同的所述实体对应不同的所述自定义标识,相同的所述实体的不同所述实例对应相同的所述自定义标识,对所述实体设置锚点,通过语言模型编码得到所述训练语料的位置信息;
根据所述知识图谱网络提取每个所述实体的相关概念和与所述相关概念对应的置信度,如果所述实体的所述相关概念小于10个,则设置空余部分所述置信度为0;
根据所述置信度通过softmax操作,得到所述相关概念的权重值,根据所述权重值和所述向量表示得到向量集合,根据所述向量集合得到所述实体的向量表示,使所述训练语料与所述知识图谱网络实现数据信息交互;
对待测试文本进行预处理,根据所述文本检测模型得到检测结果。
2.根据权利要求1所述的基于知识图谱的敏感文本检测方法,其特征在于,所述得到知识图谱网络方法为:
通过网络爬虫技术获取开源社区和信息公开网站中的所述现有知识,汇总得到数据集,通过实体识别和关系抽取技术处理所述数据集,得到所述数据集的结构化数据并组成所述知识图谱网络。
3.根据权利要求2所述的基于知识图谱的敏感文本检测方法,其特征在于,所述得到训练语料方法为:
通过所述网络爬虫技术获取所述开源社区和所述信息公开网站中的所述敏感文本,删除所述敏感文本中的停用词和特殊符号并切分所述敏感文本的长度,得到所述训练语料。
4.根据权利要求3所述的基于知识图谱的敏感文本检测方法,其特征在于,预处理所述实体和所述相关概念,通过爬取维基百科文本补充所述实体和所述相关概念,如果所述知识图谱网络没有所述实体,则使用维基信息代替所述实体,所述维基信息通过所述语言模型和最大池化进行编码。
5.基于知识图谱的敏感文本检测系统,其特征在于,包括:
知识图谱网络建立模块:爬取网络中现有知识,对所述现有知识进行预处理,得到知识图谱网络;
训练语料构建模块:获取网络中的敏感文本,对所述敏感文本进行预处理,得到训练语料,所述训练语料包括实体和与所述实体对应的实例,对所述实例的前后位置处插入自定义标识,不同的所述实体对应不同的所述自定义标识,相同的所述实体的不同所述实例对应相同的所述自定义标识,对所述实体设置锚点,通过语言模型编码得到所述训练语料的位置信息,根据所述知识图谱网络提取每个所述实体的相关概念和与所述相关概念对应的置信度,如果所述实体的所述相关概念小于10个,则设置空余部分所述置信度为0;
文本检测模型构建模块:根据所述训练语料和所述知识图谱网络得到文本检测模型的编码信息,将所述编码信息转化为向量表示,得到最终的所述文本检测模型,根据所述置信度通过softmax操作,得到所述相关概念的权重值,根据所述权重值和所述向量表示得到向量集合,根据所述向量集合得到所述实体的向量表示,使所述训练语料与所述知识图谱网络实现数据信息交互;
预测结果模块:对待测试文本进行预处理,根据所述文本检测模型得到检测结果。
6.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的基于知识图谱的敏感文本检测方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的基于知识图谱的敏感文本检测方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111535596.1/1.html,转载请声明来源钻瓜专利网。