[发明专利]一种基于并行化改进的Transformer-CRF网络的实体命名识别方法在审
申请号: | 202210579761.1 | 申请日: | 2022-05-26 |
公开(公告)号: | CN114943233A | 公开(公告)日: | 2022-08-26 |
发明(设计)人: | 唐小勇;黄勇;许佳豪 | 申请(专利权)人: | 长沙理工大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 合肥数字代码知识产权代理有限公司 34253 | 代理人: | 张天会 |
地址: | 410114 湖南省*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 并行 改进 transformer crf 网络 实体 命名 识别 方法 | ||
本发明涉及文本挖掘技术领域,具体涉及一种基于并行化改进的Transformer‑CRF网络的实体命名识别方法,本发明首先对数据进行预处理,划分数据集并进行标注任务设置,再使用改进的Transformer做特征抽取器对输入的中文NER数据进行特征抽取,使用改进的Transformer做字符编码,使用改进的Transformer进行解码和训练,定义由真实标签路径得分和所有标签路径得分组成的损失函数,最后经过CRF层考虑了序列中的全局标签信息,输出最优的标签序列;本发明能够帮助研究者在海量的文本数据中高效地获取有价值的信息和知识,有效的缓解了人工抽取信息耗时耗力的问题,对进一步文本挖掘工作具有重要意义。
技术领域
本发明涉及文本挖掘技术领域,具体涉及一种基于并行化改进的Transformer-CRF网络的实体命名识别方法。
背景技术
文本挖掘是一个具有挑战性的研究问题,可以从大量文本数据中获得有价值的信息和知识。其中一项著名的技术是命名实体识别(NER),它旨在自动识别输入文本中的特定实体,以及相关实体的输出位置信息和实体类型。它是文本挖掘中不可或缺的基本任务,它影响着实体关系提取和文本匹配等一系列下游任务的执行。
最初,为了节省直接从相关文章中提取交互式信息的时间,研究人员建议使用智能信息提取系统,以帮助基于字典和规则方法识别文本中的重要实体。后来,研究人员通过集成语言模型和统计机器学习算法来构建模型,例如隐马尔可夫模型(HMM),支持向量机(SVM)等。这些模型在GENIA语料库中显示出良好的结果。但是,HMM只能局限于某些上下文特征。研究人员提出了条件随机场模型(CRF)来很好地解决这个问题。CRF没有像HMM那样严格的独立性假设,因此它可以容纳任意的上下文信息,并且设计更加灵活。然而,通用报告格式在捕获长距离依赖信息方面仍然存在缺点。
近年来,深度学习在文本挖掘领域也得到了广泛的应用。具有词嵌入的深度学习可以大大提高命名实体的识别能力。这种类型的方法将词向量从离散的one-hot表示映射到低维空间,成为密集嵌入,然后将句子的嵌入序列输入RNN,使用神经网络自动提取特征,Softmax预测每个词向量的标签,使模型的训练成为端到端的过程。与CRF模型相比,RNN模型在序列建模方面非常强大,可以捕获远距离上下文信息,并且具有神经网络拟合非线性的能力。但RNN在长距离训练中存在梯度消失和梯度爆炸的问题。研究人员提出,长短期记忆模型(LSTM)可以在较长的序列中具有更好的性能,并且RNN中LSTM单元的简单调整技术可以显着减少过度拟合。经过进一步改进,提出了一种结合双向长短期记忆(BiLSTM)和条件随机场(CRF)的神经网络模型。它用于NER或词性标记,效果比简单CRF或BiLSTM都有很好的效果。这种双向结构可以获得上下文序列信息,因此广泛用于命名实体识别等任务中。
然而,包括RNN、LSTM、BiLSTM在内的这些方法的缺点是,每个令牌的标记过程都是独立进行的,不能直接使用上面的预测标签,这可能导致预测的标签序列可能无效。另一方面,CRF计算联合概率,优化整个序列(最终目标),而不是在每个时刻串联最佳。在这一点上,CRF比这些方法更好。
为此,一些学者提出了用于序列标记的DL-CRF模型。神经网络的输出层连接到CRF层(重点是利用标签转移概率)来做句子级标签预测,使标签过程不再是对每个词向量的独立分类。基于上述,提出了BiLSTM-CRF模型,该模型在序列标记任务中取得了显著成效。为了解决这个问题,Google团队Jacob Devlin等人提出了一种BERT(双向编码器表示来自Transformers)语言预处理模型来获得词嵌入,作为一种先进的预训练词向量模型,BERT进一步增强了词向量模型的泛化能力,充分描述了字符级、字级、句子级甚至句间关系特征,并更好地表征不同上下文中的语法和语义信息。
Bert虽然通过使用Transformer做特征抽取器,提高了模型的相率,但是其训练参数超过1亿个,训练时间长,对设备要求高。而直接使用Transformer做NER任务,其性能结果表现一般。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长沙理工大学,未经长沙理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210579761.1/2.html,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法