[发明专利]基于命名实体识别的违法广告词检测方法在审

专利信息
申请号: 202111012858.6 申请日: 2021-08-31
公开(公告)号: CN113849597A 公开(公告)日: 2021-12-28
发明(设计)人: 闫连山;袁子博;姚涛;蒲桂东 申请(专利权)人: 艾迪恩(山东)科技有限公司;西南交通大学烟台新一代信息技术研究院
主分类号: G06F16/33 分类号: G06F16/33;G06F16/35;G06F40/295;G06F40/30;G06Q30/02;G06N3/04;G06N3/08;G06N7/00
代理公司: 烟台双联专利事务所(普通合伙) 37225 代理人: 矫智兰
地址: 264000 山东省烟*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 命名 实体 识别 违法 广告词 检测 方法
【说明书】:

发明提供基于命名实体识别的违法广告词检测方法,步骤1)将广告数据转化为文本格式,形成广告文本;步骤2)对广告领域进行分类,利用BERT中文预训练模型将广告文本按领域分类;步骤3)对应不同广告领域类别,根据每个广告领域的广告违法行为编码对广告文本按字粒度进行标注形成标注文本;步骤4)将标注文本分为训练集与验证集,将训练集映射到BERT中文预训练模型中获得动态字向量;步骤5)将动态字向量传入BiLSTM双向长短期记忆网络获取得分向量;步骤6)将得分向量传入条件随机场CRF,CRF获取标签之间的关系,对最终预测的标签加以约束,得到最优标签,本发明通过深层网络BERT+BiLSTM+CRF结构学习违法词特征,达到提取违法词并匹配违法条例的功能。

技术领域

本发明属于信息技术领域,具体涉及基于命名实体识别的违法广告词检测方法。

背景技术

近年来,随着各产业的飞速发展,广告的宣传方式所占比重越来越大,我国的广告回报率一直在世界范围内名列前茅,所以各大行业更加重视广告宣传。但是伴随着广告增多,违法广告便泛滥起来,某些行业通过虚假广告来夸大产品,会使公众产成误解,从而对消费者造成欺骗甚至伤害。在一些特殊领域,如医疗行业,虚假的宣传信息会让患者对治疗产生错误认知,以至于耽误病情,所以违法广告的检测成为一个棘手的问题。

目前大部分的违法广告检测是通过相关技术人员进行人工筛选,效率低下,如何实现自动化检测变得尤为迫切。国内外关于自动化违法广告检测的工作很少,这是一个比较新的领域。近年来,随着深度网络的发展,逐渐有些研究提出使用深度网络解决违法检测的问题,但这些研究大多功能都不够完善,对违法广告的后续处理很难起到帮助。此外,对于广告而言,不同领域的广告有着不同的法律规定,所以很难用一种方法完成对所有类型的广告的检测。

发明内容

针对现有技术中的问题,本发明提供基于命名实体识别的违法广告词检测方法,基于命名实体识别的思想,通过深层网络BERT+BiLSTM+CRF结构学习违法词特征,达到提取违法词并匹配违法条例的功能。

为实现上述目的,本发明是通过以下技术方案实现的:

本发明提供基于命名实体识别的违法广告词检测方法,其特殊之处在于:包括以下步骤:

步骤1)对广告数据进行预处理,将广告数据转化为文本格式,形成广告文本;

步骤2)对广告领域进行分类,利用BERT中文预训练模型将广告文本按领域分类;

步骤3)对应步骤2中的不同广告领域类别,根据每个广告领域的广告违法行为编码对广告文本按字粒度进行标注形成标注文本;将广告文本中的违法词当作特殊实体,违法词对应的违法法条即为特殊实体的特征,不同的违法条例对应不同的标签,违法词通过标签实现标注;

步骤4)将标注文本分为训练集与验证集,将训练集映射到BERT中文预训练模型中获得动态字向量,字向量是将标注文本的字词转化成用数学表达的向量,动态指BERT中文预训练模型将每个输出的字向量都包含了字向量对应的字词所在文本的上下文语境信息;

步骤5)将步骤4的动态字向量传入BiLSTM双向长短期记忆网络,BiLSTM双向长短期记忆网络结合上下文语境信息得到动态字向量对应的违法条例的特征,结合特征输出每个字的得分向量,得分向量是每个字符对应相应标签概率的向量;

步骤6)将步骤5输出的得分向量传入条件随机场CRF,CRF获取标签之间的关系,对最终预测的标签加以约束,得到最优标签。

进一步的,广告数据包括图片、视频;违法条例对应的标签包括正常标签、违法标签,不涉及违法的字对应正常标签,违法词对应违法标签。

进一步的,在步骤5中,BiLSTM获取得分向量的计算流程表示为:

(1)

(2)

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于艾迪恩(山东)科技有限公司;西南交通大学烟台新一代信息技术研究院,未经艾迪恩(山东)科技有限公司;西南交通大学烟台新一代信息技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111012858.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top