[发明专利]一种基于预训练模型的安全事件实体识别方法在审

专利信息
申请号: 202110482621.8 申请日: 2021-04-30
公开(公告)号: CN113312914A 公开(公告)日: 2021-08-27
发明(设计)人: 黑新宏;董林靖;朱磊;姬文江;刘雁孝 申请(专利权)人: 西安理工大学
主分类号: G06F40/295 分类号: G06F40/295;G06F40/242;G06N3/04;G06N3/08
代理公司: 西安弘理专利事务所 61214 代理人: 韩玙
地址: 710048 陕*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 训练 模型 安全 事件 实体 识别 方法
【权利要求书】:

1.基于预训练模型的安全事件实体识别方法,其特征在于,首先在对原始的RoBERTa模型进行任务二次预训练优化过程中,加入公共安全领域词典的全词Mask机制,使PreTrain100K+RoBERTa+模型具备更好的中文语言模型能力;然后将生成的预训练语言模型和扩充领域实体的词典输入到BiLSTM-CRF模型中进行实体识别训练;最后,设置深度学习模型作为服务端测试实体识别模型效果,将测试数据集输入模型可输出测试数据的实体类别,并根据评价指标判断其效果的好坏。

2.根据权利要求1所述的基于预训练模型的安全事件实体识别方法,其特征在于,具体包括以下步骤:

步骤1,从github直接获取CEC数据集及及说明文件;

步骤2,CEC数据集共有332条公共安全事件实例,采用了XML语言作为标注格式对CEC数据集进行标注,其中包含了六个最重要的数据标签:Event、Denoter、Time、Location、Participant和Object;Event用于描述事件;Denoter、Time、Location、Participant和Object用于描述事件的指示词和要素,根据XML标签的不同利用python语言提取标注的实体,构建安全事件实体词典。

步骤3,针对步骤2数据文本中Denoter、Time、Location、Participant和Object五个标签进行命名实体识别研究,将标签分别简记为DEN、TIME、LOC、PAR、OBJ,分别表示行为、时间、位置、参与者和对象。

步骤4,对步骤1中原始未标注的CEC数据集以安全事件实例数目对文档进行划分,在332条数据集中随机选取30条规范作为验证集;然后对332条数据集按7:3的比例划分选取训练集、测试集进行实验,训练集232条实例,测试集100条实例。

步骤5,对步骤4中划分的训练集和验证集进行BIO标注,构建用于命名实体识别任务的安全事件数据集,数据文件中为两列信息,单字符与相对应标签为一行的格式;

步骤6,构建领域预训练数据集;从互联网中获取100K条未标注的新闻领域语料,进行数据清洗,删除语料中多余的符号及冗余信息,对预训练数据进行格式上的统一处理。

步骤7,构建中文预训练语言模型,将步骤5中得到的新闻领域预训练数据集输入到本发明提出的PreTrain100K+RoBERTa+预训练模型中,生成中文新闻领域预训练语言模型;

步骤8,构建实体识别模型,将步骤7中生成的预训练语言模型和动态字向量作为实体识别模型的输入;

步骤9,设置训练的实体识别模型作为服务端测试模型效果,将测试数据集输入模型,输出测试数据的实体类别标签,最终实现公共安全事件文本中命名实体的自动识别。

3.根据权利要求2所述的基于预训练模型的安全事件实体识别方法,其特征在于,所述步骤2中,构建了安全事件实体词典,并将词典融合到预训练模型中,提高下游命名实体识别模型的效果。

4.根据权利要求2所述的基于预训练模型的安全事件实体识别方法,其特征在于,本发明使用无标注新闻领域数据对RoBERTa进行领域二次预训练,在大规模无标注的语料上采用自监督的方式训练语言模型,将得到的语言模型连接下游任务模型进行微调。

5.根据权利要求2所述的基于预训练模型的安全事件实体识别方法,其特征在于,所述步骤7的具体过程如下:

步骤7.1,采用全词Mask机制,如果一个完整的词的部分子词被Mask,则同属该词的其他部分也会被Mask,这更符合中文语法习惯,使模型能够更好的学习中文语言表述方式。

步骤7.2,将步骤2中构建的CEC安全事件实体词典,引入到RoBERTa模型的分词函数中使其能后在Mask机制预测时保留公共安全事件文本实体完整的语义。

步骤7.3,将100K的新闻领域预训练数据和安全事件实体词典输入进模型,设置训练迭代次数为100000次,得到安全事件领域的预训练模型PreTrain100K+RoBERTa+

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110482621.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top