[发明专利]一种结合先验知识的金融实体关系抽取系统及方法在审
| 申请号: | 202211094335.5 | 申请日: | 2022-09-06 |
| 公开(公告)号: | CN115687634A | 公开(公告)日: | 2023-02-03 |
| 发明(设计)人: | 石宣化;万瑶;张腾;金海;曹楠;李梦凡 | 申请(专利权)人: | 华中科技大学 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/242;G06F40/247;G06F40/284;G06F40/295;G06Q40/00 |
| 代理公司: | 北京之于行知识产权代理有限公司 11767 | 代理人: | 罗延红 |
| 地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 结合 先验 知识 金融 实体 关系 抽取 系统 方法 | ||
本发明涉及一种结合先验知识的金融实体关系抽取系统及方法,系统至少包括:深度预训练模块用于基于与金融相关的语料对深度神经网络进行训练并生成能够识别金融实体属性的深度预训练模型,关键词分析模块用于针对中文金融先验知识提取并输出中文金融文本中的关键词的位置信息和重要性向量;注意力机制模块用于根据关键词的位置信息进行编码以得到注意力掩码,并且将注意力掩码与中文金融文本的实体信息输入至深度预训练模型以获取文本特征向量;最优间隔分布模型模块用于基于输入的文本特征向量和重要性向量预测金融实体关系。针对现有模型对于中文特定领域的适用度较低的缺陷,本发明对中文金融文本中的实体以及相关特征的关系抽取结果更精确。
技术领域
本发明涉及计算机的自然语言处理关系抽取模型的技术领域,尤其涉及结合先验知识的金融实体关系抽取系统及方法。
背景技术
关系抽取是自然语言处理中常见的一类任务。对于两个存在关系的实体,可以将其分别称为主体和客体,关系抽取即在非结构或者半结构化的数据中找出主体与客体之间存在的关系,并且表示为实体关系三元组,即(主体,关系,客体)。现有的关系抽取模型通常是通用化的,并且大多针对于英文文本进行分析,对于中文和特定领域内的关系抽取任务表现往往不佳。随着经济的发展,各类经济金融活动数据爆炸式增长,通过对此类数据进行分析,可以获得大量隐藏知识,以更好地服务金融行业。
近年来,以深度学习为代表的关系抽取技术,通过大型的预训练模型和海量的语料,还通过对文本特征的提取以及特定的映射,将文本中实体和关系的语义信息表示为低维连续空间向量,通过对向量进行计算和处理来预测实体之间关系相应的复杂语义信息。然而,大多数模型只注重文本特征的抽取过程,对于利用文本特征向量进行关系预测建模仍存在一些泛化性能差,语义解释性差等问题,特定领域的先验专业知识以及更好的分类模型框架需要引入关于预测建模过程中,利用中文分析工具构建中文金融领域知识分析模块,能反应金融实体之间存在关系的关键信息。与文本特征向量进行融合后,采用性能优越的多分类最优间隔分布模型,能极大提升关系抽取任务的效果,但仍存在一些问题:(1)当前对金融领域知识分析只采用了分词加统计学方法,忽略了关键词词序和更深层语义等信息;(2)现有工作只做了实体对和单个关系抽取,未能扩展到多实体多关系抽取任务。
例如,公开号为CN114417846A的中国专利公开了一种基于注意力贡献度的实体关系抽取方法,该方法通过spaCy对数据集中的原始句子进行分词,得到词列表,将词列表和标签以字典形式存入输入数据集D;然后对输入数据集D进行采样,获得输入数据集D中每个句子的实体样本集和关系样本集;选用在大规模生物医学语料库、司法数据库、旅游数据库上预训练的BERT模型,采用注意力贡献度算法计算实体之间的交互信息,再传递给下游的实体抽取和关系抽取任务,构成基于span的实体关系抽取模型;最后将实体样本集和关系样本集放入基于span的实体关系抽取模型训练,极大的提高了实体抽取任务的F1值和关系抽取任务的F1值。但是,该发明采用的BioBERT模型主要用于生物医学文本挖掘领域,另一方面,在关系预测时采用实体的向量表示和最大池化的上下文关系,会损失部分实体与句子的关联信息,并且没有利用领域内的先验知识探索实体与关系的潜在联系。
公开号为CN112800774A的中国专利公开了一种基于注意力机制的实体关系抽取方法、装置、介质和设备。其中方法包括如下步骤:将原始文本的内容进行预处理,并输入到BERT预训练模型得到文本句子每个单词的文本向量表示;将文本向量输入卷积神经网络得到句子卷积特征向量;将文本向量经过注意力权重计算单元得到包含实体信息的语义上下文向量;之后连接成特征向量,然后经过全连接神经网络和SoftMax函数计算得到不同类别的概率,其中最大的概率对应的就是实体对的实体关系类型。但是,该发明仅考虑句子上下文信息,没有对实体属性信息,实体位置信息进行利用,并且该发明没有针对特定领域关系抽取的优化过程,无法利用领域内的先验知识进一步优化模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211094335.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:受端电网稳定性的分析方法、装置、设备及存储介质
- 下一篇:一种调节式景观花架





