[发明专利]一种基于ALBERT的科协活动命名实体识别的方法在审
申请号: | 202210163205.6 | 申请日: | 2022-02-22 |
公开(公告)号: | CN114548106A | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 陈万志;李思凡 | 申请(专利权)人: | 辽宁工程技术大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京华夏正合知识产权代理事务所(普通合伙) 11017 | 代理人: | 韩登营;张丽萍 |
地址: | 123000 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 albert 科协 活动 命名 实体 识别 方法 | ||
本发明公开了一种基于ALBERT的科协活动命名实体识别的方法,包括将输入的科协活动文本转化为词向量;将输入的词向量进行编码,提取全文特征信息;学习标签之间的约束,输出概率最高的标签序列。本发明提出ALBERT‑BiGRU‑ATTENTION‑CRF命名实体识别模型,模型可以在评估各级科协对改革实施方案中改革要点落实情况的过程中,降低人工参与度,提高工作效率,正确获取科协活动实体类型。实验表明,ALBERT‑BiGRU‑ATTENTION‑CRF模型相比于BiGRU‑CRF模型F1值提高了1.3%。本发明所用模型可以获得较好地识别效果,有效地减少了在评估过程中人工参与度,提高工作效率,后续应将其他领域内的活动文本涵盖进来,扩大数据集规模,进一步拓宽模型的应用范围。
技术领域
本发明涉及一种基于ALBERT的科协活动命名实体识别的方法。
背景技术
命名实体识别(Named entity recognition,NER)是自然语言处理领域中的基础任务,对后续信息抽取与知识图谱的构建都起着至关重要的作用,主要有基于规则和词典的方法,基于机器学习的方法和基于深度学习的方法。目前,常见用于医疗、军事和法律等领域。针对常用的公开数据集提出的模型有很多,但是在特定的应用背景下,这些模型不能直接进行应用。根本原因在于这些应用领域都有自己要设别的实体类型,不仅仅局限于组织机构名称、地名和人名等通用类型,还需要更多细化和具有针对性的分析与研究。二是领域内专门进行整理和研究的人员较少,数据缺失。
郭知鑫,邓小龙等人提出用BERT-BiLSTM-CRF模型来实现法律案件实体智能识别。将BERT模型作为输入层,获取字向量。由于该模型能充分利用上下文之间的字词关系,可有效提取文本特征,通过BiLSTM模型深度学习全文特征信息,进行特定的法律案件实体识别;最后在CRF算法层对BiLSTM模型的输出序列进行处理,结合CRF算法,根据相邻之间的标签得到一个全局最优序列。
相比于Word2Vec,利用BERT模型获取词向量可以更好考虑上下文和词序信息。BERT采用Transformer来构建模型,利用遮蔽语言模型(masked language model,MLM)和下一句预测(next sentence prediction)两种无监督任务来提升效果。Transformer包含编码组件和解码组件两部分,编码组件由多个编码器堆叠构成,每个编码器的结构均相同,但编码器之间没有共享参数。长短期记忆网络(Long short term memory,LSTM)被设计用来解决传统循环神经网络的长期依赖问题,一个LSTM单元包含3个门控结构,分别为遗忘门、记忆门和输出门,每个门控结构都是由Sigmoid函数和逐点相乘器组成。遗忘门决定前一状态的信息输入当前状态的程度,记忆门决定当前状态信息要保留的程度,最后由输出门决定哪些信息作为当前状态的输出。
双向的LSTM可以同时利用过去和未来的信息,提高准确率。CRF是一种特殊的马尔可夫随机场,在序列标注任务中表现优秀,可以在训练过程中学习到相邻标签间的约束关系,提高预测输入句子标签序列的准确性。
上述所提出的BERT-BiLSTM-CRF模型只对法律文本中的地点和人物进行了相应的标注,对法律文本的其他要素,如时间、结果等进行标注,且对硬件资源需求较高,如内存和算力。
发明内容
针对现有技术中的不足,本发明所要解决的技术问题在于提供一种基于ALBERT的科协活动命名实体识别的方法,在命名方式不规范且数据量较小的情况下实现较优的命名实体识别模型的构建,解决评估改革要点落实问题。
为了解决上述技术问题,本发明通过以下技术方案来实现:
本发明提供一种基于ALBERT的科协活动命名实体识别的方法,包括以下步骤:
S1、将输入的科协活动文本转化为词向量;
S2、将输入的词向量进行编码,提取全文特征信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁工程技术大学,未经辽宁工程技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210163205.6/2.html,转载请声明来源钻瓜专利网。