[发明专利]一种基于预训练模型的安全事件实体识别方法在审
申请号: | 202110482621.8 | 申请日: | 2021-04-30 |
公开(公告)号: | CN113312914A | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 黑新宏;董林靖;朱磊;姬文江;刘雁孝 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/242;G06N3/04;G06N3/08 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 韩玙 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 训练 模型 安全 事件 实体 识别 方法 | ||
1.基于预训练模型的安全事件实体识别方法,其特征在于,首先在对原始的RoBERTa模型进行任务二次预训练优化过程中,加入公共安全领域词典的全词Mask机制,使PreTrain100K+RoBERTa+模型具备更好的中文语言模型能力;然后将生成的预训练语言模型和扩充领域实体的词典输入到BiLSTM-CRF模型中进行实体识别训练;最后,设置深度学习模型作为服务端测试实体识别模型效果,将测试数据集输入模型可输出测试数据的实体类别,并根据评价指标判断其效果的好坏。
2.根据权利要求1所述的基于预训练模型的安全事件实体识别方法,其特征在于,具体包括以下步骤:
步骤1,从github直接获取CEC数据集及及说明文件;
步骤2,CEC数据集共有332条公共安全事件实例,采用了XML语言作为标注格式对CEC数据集进行标注,其中包含了六个最重要的数据标签:Event、Denoter、Time、Location、Participant和Object;Event用于描述事件;Denoter、Time、Location、Participant和Object用于描述事件的指示词和要素,根据XML标签的不同利用python语言提取标注的实体,构建安全事件实体词典。
步骤3,针对步骤2数据文本中Denoter、Time、Location、Participant和Object五个标签进行命名实体识别研究,将标签分别简记为DEN、TIME、LOC、PAR、OBJ,分别表示行为、时间、位置、参与者和对象。
步骤4,对步骤1中原始未标注的CEC数据集以安全事件实例数目对文档进行划分,在332条数据集中随机选取30条规范作为验证集;然后对332条数据集按7:3的比例划分选取训练集、测试集进行实验,训练集232条实例,测试集100条实例。
步骤5,对步骤4中划分的训练集和验证集进行BIO标注,构建用于命名实体识别任务的安全事件数据集,数据文件中为两列信息,单字符与相对应标签为一行的格式;
步骤6,构建领域预训练数据集;从互联网中获取100K条未标注的新闻领域语料,进行数据清洗,删除语料中多余的符号及冗余信息,对预训练数据进行格式上的统一处理。
步骤7,构建中文预训练语言模型,将步骤5中得到的新闻领域预训练数据集输入到本发明提出的PreTrain100K+RoBERTa+预训练模型中,生成中文新闻领域预训练语言模型;
步骤8,构建实体识别模型,将步骤7中生成的预训练语言模型和动态字向量作为实体识别模型的输入;
步骤9,设置训练的实体识别模型作为服务端测试模型效果,将测试数据集输入模型,输出测试数据的实体类别标签,最终实现公共安全事件文本中命名实体的自动识别。
3.根据权利要求2所述的基于预训练模型的安全事件实体识别方法,其特征在于,所述步骤2中,构建了安全事件实体词典,并将词典融合到预训练模型中,提高下游命名实体识别模型的效果。
4.根据权利要求2所述的基于预训练模型的安全事件实体识别方法,其特征在于,本发明使用无标注新闻领域数据对RoBERTa进行领域二次预训练,在大规模无标注的语料上采用自监督的方式训练语言模型,将得到的语言模型连接下游任务模型进行微调。
5.根据权利要求2所述的基于预训练模型的安全事件实体识别方法,其特征在于,所述步骤7的具体过程如下:
步骤7.1,采用全词Mask机制,如果一个完整的词的部分子词被Mask,则同属该词的其他部分也会被Mask,这更符合中文语法习惯,使模型能够更好的学习中文语言表述方式。
步骤7.2,将步骤2中构建的CEC安全事件实体词典,引入到RoBERTa模型的分词函数中使其能后在Mask机制预测时保留公共安全事件文本实体完整的语义。
步骤7.3,将100K的新闻领域预训练数据和安全事件实体词典输入进模型,设置训练迭代次数为100000次,得到安全事件领域的预训练模型PreTrain100K+RoBERTa+。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110482621.8/1.html,转载请声明来源钻瓜专利网。