[发明专利]基于命名实体识别的违法广告词检测方法在审
| 申请号: | 202111012858.6 | 申请日: | 2021-08-31 |
| 公开(公告)号: | CN113849597A | 公开(公告)日: | 2021-12-28 |
| 发明(设计)人: | 闫连山;袁子博;姚涛;蒲桂东 | 申请(专利权)人: | 艾迪恩(山东)科技有限公司;西南交通大学烟台新一代信息技术研究院 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/295;G06F40/30;G06Q30/02;G06N3/04;G06N3/08;G06N7/00 |
| 代理公司: | 烟台双联专利事务所(普通合伙) 37225 | 代理人: | 矫智兰 |
| 地址: | 264000 山东省烟*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 命名 实体 识别 违法 广告词 检测 方法 | ||
1.基于命名实体识别的违法广告词检测方法,其特征在于:包括以下步骤:
步骤1)对广告数据进行预处理,将广告数据转化为文本格式,形成广告文本;
步骤2)对广告领域进行分类,利用BERT中文预训练模型将广告文本按领域分类;
步骤3)对应步骤2中的不同广告领域类别,根据每个广告领域的广告违法行为编码对广告文本按字粒度进行标注形成标注文本;
将广告文本中的违法词当作特殊实体,违法词对应的违法法条即为特殊实体的特征,不同的违法条例对应不同的标签,违法词通过标签实现标注;
步骤4)将标注文本分为训练集与验证集,将训练集映射到BERT中文预训练模型中获得动态字向量,字向量是将标注文本的字词转化成用数学表达的向量,动态指BERT中文预训练模型将每个输出的字向量都包含了字向量对应的字词所在文本的上下文语境信息;
步骤5)将步骤4的动态字向量传入BiLSTM双向长短期记忆网络,BiLSTM双向长短期记忆网络结合上下文语境信息得到动态字向量对应的违法条例的特征,结合特征输出每个字的得分向量,得分向量是每个字符对应相应标签概率的向量;
步骤6)将步骤5输出的得分向量传入条件随机场CRF,CRF获取标签之间的关系,对最终预测的标签加以约束,得到最优标签。
2.如权利要求1所述的基于命名实体识别的违法广告词检测方法,其特征在于:广告数据包括图片、视频;违法条例对应的标签包括正常标签、违法标签,不涉及违法的字对应正常标签,违法词对应违法标签。
3.如权利要求1所述的基于命名实体识别的违法广告词检测方法,其特征在于:在步骤5中,BiLSTM获取得分向量的计算流程表示为:
(1)
(2)
(3)
(4)
(5)
(6)
式中,为文本长度,为输入的广告文本的第个字,为sigmod激活函数,、、分别为输入门、遗忘门、输出门,为输入权重矩阵、为输入偏置项, 为当前字的输入权重矩阵,为输入门的输入权重矩阵,为遗忘门的输入权重矩阵,输出门的输入权重矩阵,为当前字的输入权偏置项,为输入门的输入偏置项,为遗忘门的输入偏置项,为输出门的输入偏置项,为记忆细胞,为临时细胞状态,为当前细胞状态,为前一个字细胞状态,为字的隐层状态,为前一个字的隐层状态,每个字的输出和到下一个字参与计算,并且将每个字的保存,包含了每个字结合过上下文语境信息后的特征,用于得到得分向量。
4.如权利要求1所述的基于命名实体识别的违法广告词检测方法,其特征在于:在步骤6中,CRF根据训练集{
5.如权利要求1所述的基于命名实体识别的违法广告词检测方法,其特征在于:状态转移矩阵表示为Pij:
其中,i、j均为自然数且大于等于2,状态转移矩阵中的概率表示为两个标签前后顺序的概率,Pij为标签i后面为标签j的概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于艾迪恩(山东)科技有限公司;西南交通大学烟台新一代信息技术研究院,未经艾迪恩(山东)科技有限公司;西南交通大学烟台新一代信息技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111012858.6/1.html,转载请声明来源钻瓜专利网。





