[发明专利]敏感词检测模型的训练方法和系统有效
申请号: | 201711096041.5 | 申请日: | 2017-11-09 |
公开(公告)号: | CN110019795B | 公开(公告)日: | 2021-10-12 |
发明(设计)人: | 张鹏;张春荣 | 申请(专利权)人: | 普天信息技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 谢安昆;宋志强 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 敏感 检测 模型 训练 方法 系统 | ||
1.一种敏感词检测模型的训练方法,其特征在于,所述敏感词检测模型包含双向长短记忆性网络BLSTM模型和条件随机场CRF模型,所述BLSTM模型包括第一BLSTM模型和第二BLSTM模型,所述训练方法还包含卷积神经网络CNN模型;
所述训练方法包括以下步骤:
步骤A-1:保持CNN模型的当前参数不更新,训练第一BLSTM模型、第二BLSTM模型和CRF模型:将训练语料库的样本数据输入第一BLSTM模型和第二BLSTM模型,将所述第一BLSTM模型和第二BLSTM模型的输出输入CRF模型,所述CRF模型输出输入文本的敏感词识别结果;基于所述CRF的识别结果与输入文本的标记结果的差异,以4个模型总损失函数的最大化为目标,更新第一BLSTM模型、第二BLSTM模型和CRF模型的参数作为该3个模型的当前参数;
步骤A-2:保持第一BLSTM模型、第二BLSTM模型和CRF模型的当前参数不变,训练第一BLSTM模型和CNN模型:将训练语料库的样本数据输入当前第一BLSTM模型,将该第一BLSTM模型的输出输入CNN模型,所述CNN模型输出输入文本的字体识别结果;基于所述CNN的识别结果与输入文本字体的差异,以4个模型总损失函数的最大化为目标,更新CNN模型的参数作为该模型的当前参数;
所述步骤A-2结束后,返回步骤A-1,直至迭代程序结束;
所述总损失函数为Ltotal:
其中:
m表示训练语料库,Nm为训练语料库m输入模型的样本数据的句子总数,和表示语料库m中的第i句子和该句子的敏感词标记;H为熵函数,H(p)=-∑plogp;Θ为模型参数,Θ的角标s代表第一BLSTM模型,Θ的角标m代表第二BLSTM模型和CRF模型,Θ的角标d代表CNN模型。
2.根据权利要求1所述的方法,其特征在于,
所述步骤A-1和所述步骤A-2之间还包括,迭代所述步骤A-1,如果所述步骤A-1迭代次数达到第一预设次数,执行步骤A-2;
所述返回步骤A-1还包括,迭代所述步骤A-2,如果所述步骤A-2迭代次数达到第二预设次数,返回步骤A-1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于普天信息技术有限公司,未经普天信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711096041.5/1.html,转载请声明来源钻瓜专利网。