[发明专利]敏感词检测模型的训练方法和系统有效
申请号: | 201711096041.5 | 申请日: | 2017-11-09 |
公开(公告)号: | CN110019795B | 公开(公告)日: | 2021-10-12 |
发明(设计)人: | 张鹏;张春荣 | 申请(专利权)人: | 普天信息技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 谢安昆;宋志强 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 敏感 检测 模型 训练 方法 系统 | ||
本发明提供一种敏感词检测模型的训练方法和系统,该方法包括:步骤A‑1:将训练语料库的样本数据输入第一BLSTM模型和第二BLSTM模型,将第一BLSTM模型和第二BLSTM模型的输出输入CRF模型,CRF模型输出输入文本的敏感词识别结果;基于CRF的识别结果与输入文本的标记结果的差异,更新模型当前参数;步骤A‑2:将训练语料库的样本数据输入当前第一BLSTM模型,将该第一BLSTM模型的输出输入CNN模型,CNN模型输出输入文本的字体识别结果;基于CNN的识别结果与输入文本的字体差异,更新模型的当前参数。本发明提供的敏感词检测模型训练方法和系统,可以得到性能更好的敏感词检测模型,相比于传统DFA算法,对敏感词的检测不受敏感词词库限制,对异性字具备一定的检测能力。
技术领域
本发明涉及人工智能领域,特别涉及一种敏感词检测模型的训练方法和系统。
背景技术
敏感词检测是现代网络监控的必要功能。如何设计一个准确率高、鲁棒性强的过滤算法是实现有效监控的必要条件。传统敏感词算法大多基于已有敏感词库,通过查找辞典来判断语句中是否包含敏感词。
在传统算法中,应用最广的应属于确定有穷自动机DFA(Deterministic FiniteAutomaton)算法,其特征为:如图1所示,有一个有限状态集合和一些从一个状态通向另一个状态的边,每条边上标记有一个符号,其中一个状态是初态,某些状态是终态。
将图1的抽象概念转化为下述具体结构来说明算法实现。如图2所示,通过S查找U、V,通过U查找V、P,通过V查找U、P。通过这样的转变,可以将状态的转变为使用集合的查找。
假设词库中存在敏感词:日本人、日本士兵、王发达。那么需要构建一个什么样的结构呢?
首先:查询“日”→{本}、查询″本″→{人、士兵}、查询“人”→{null}、查询“士”→{兵}。结构如图3所示。进一步拓展,还可以得到图4的查询结构。
如此,可以将敏感词库构建成了一棵一棵树,判断一个词是否为敏感词时就大大减少了检索的匹配范围。比如要判断日本人,根据第一个字确认要检索的那棵树,然后在这个树中进行检索。而后通过标识位来判断一个敏感词是否结束。
但是,DFA算法严重依赖于现有敏感词库,对于库中不存在或含有干扰的词则需要结合其他办法来检索甚至无能为力,如词库中有″我爱你″,而为避免被屏蔽而使用″莪愛伱″时则毫无办法,而这恰恰是如今的网络流行词/语变化、演变的流行方案。
发明内容
本发明提供了一种敏感词检测模型的训练方法和系统,通过本发明训练方法得到的敏感词检测模型不受敏感词词库限制,对异性字具备一定的检测能力。
本发明提供一种敏感词检测模型的训练方法,其中敏感词检测模型包含双向长短记忆性网络BLSTM模型和条件随机场CRF模型,BLSTM模型包括第一BLSTM模型和第二BLSTM模型,训练方法还包含卷积神经网络CNN模型;
训练方法包括以下步骤:
步骤A-1:保持CNN模型的当前参数不更新,训练第一BLSTM模型、第二BLSTM模型和CRF模型:将训练语料库的样本数据输入第一BLSTM模型和第二BLSTM模型,将第一BLSTM模型和第二BLSTM模型的输出输入CRF模型,CRF模型输出输入文本的敏感词识别结果;基于CRF的识别结果与输入文本的标记结果的差异,以4个模型总损失函数的最大化为目标,更新第一BLSTM模型、第二BLSTM模型和CRF模型的参数作为该3个模型的当前参数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于普天信息技术有限公司,未经普天信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711096041.5/2.html,转载请声明来源钻瓜专利网。