[发明专利]一种结合先验知识的金融实体关系抽取系统及方法在审
| 申请号: | 202211094335.5 | 申请日: | 2022-09-06 |
| 公开(公告)号: | CN115687634A | 公开(公告)日: | 2023-02-03 |
| 发明(设计)人: | 石宣化;万瑶;张腾;金海;曹楠;李梦凡 | 申请(专利权)人: | 华中科技大学 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/242;G06F40/247;G06F40/284;G06F40/295;G06Q40/00 |
| 代理公司: | 北京之于行知识产权代理有限公司 11767 | 代理人: | 罗延红 |
| 地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 结合 先验 知识 金融 实体 关系 抽取 系统 方法 | ||
1.一种结合先验知识的金融实体关系抽取系统,其特征在于,所述系统至少包括:
深度预训练模块,用于基于与金融相关的语料对深度神经网络进行训练并生成能够识别金融实体属性的深度预训练模型,
关键词分析模块,用于针对中文金融先验知识提取并输出中文金融文本中的关键词的位置信息和重要性向量;
注意力机制模块,用于根据中文金融文本中的关键词的位置信息进行编码以得到注意力掩码,并且将所述注意力掩码与中文金融文本的实体信息输入至所述深度预训练模型以获取文本特征向量;
最优间隔分布模型模块,用于基于输入的所述文本特征向量和所述重要性向量预测金融实体关系,
其中,所述注意力机制模块分别与深度预训练模块、所述关键词分析模块和所述最优间隔分布模型模块建立连接关系。
2.根据权利要求1所述的结合先验知识的金融实体关系抽取系统,其特征在于,所述关键词分析模块被配置为:
对中文金融文本进行分析并收集相关语料,基于采集的中文金融领域相关的词汇表和/或金融实体关系划分语料集合;
对与中文金融关系对应的语料集合进行分词处理,按照词语的出现频率进行排序;
将所述出现频率的排序在预设数量之前的词及其近义词的出现频率归一化为重要性向量,
将金融实体关系的关键词集合以及对应的所述重要性向量输出。
3.根据权利要求1或2所述的结合先验知识的金融实体关系抽取系统,其特征在于,所述注意力机制模块被配置为:
提取金融实体的结构表示向量;
基于句子中的自注意力特征对指定名称实体进行向量优化,使同一实体在不同句子中的所述结构表示向量存在一定的区分度;
基于关键词的位置信息进行编码以得到注意力掩码。
4.根据权利要求1~3任一项所述的结合先验知识的金融实体关系抽取系统,其特征在于,所述最优间隔分布模型模块被配置为:
将接收的文本特征向量和重要性向量拼接为句子表示向量并输入最优间隔分布模型,
所述最优间隔分布模型输出金融实体关系的预测信息。
5.根据权利要求1~4任一项所述的结合先验知识的金融实体关系抽取系统,其特征在于,所述深度预训练模块还被配置为:
基于第一Bert深度神经网络模型构建实体属性预测模型以执行实体属性预测任务,
基于第二Bert深度神经网络模型构建实体关系抽取模型以执行实体关系抽取任务,
基于Bert-LSTM+CRF模型执行实体标注任务。
6.根据权利要求1~5任一项所述的结合先验知识的金融实体关系抽取系统,其特征在于,所述关键词分析模块还被配置为:
按照以下方式采集所述中文金融领域相关的词汇表:
从中文金融文本中提取出常见词语作为一般分词词典的补充,形成针对金融领域的词汇表。
7.根据权利要求6所述的结合先验知识的金融实体关系抽取系统,其特征在于,所述关键词分析模块将所述出现频率的排序在预设排位之前的关键词及其近义词的出现频率归一化为重要性向量的方式包括:
其中,pi表示重要性值,ai表示出现频次,n表示选取的预设数量,i表示统计出来的前n个关键词的索引。
8.根据权利要求6所述的结合先验知识的金融实体关系抽取系统,其特征在于,所述注意力机制模块得到注意力掩码的执行方式包括:
根据中文金融文本中的关键词的位置信息设置注意力掩码m,其中,当中文金融文本中存在关键词时,m=1,否则m=0。
9.根据权利要求1~8任一项所述的结合先验知识的金融实体关系抽取系统,其特征在于,所述深度预训练模块获取文本特征向量的执行方式包括:
针对注意力掩码m=1的中文金融文本部分给予更大的权重以将关键词的信息反应在文本特征向量中。
10.一种结合先验知识的金融实体关系抽取系统执行的结合先验知识的金融实体关系抽取方法,其特征在于,所述方法至少包括:
基于与金融相关的语料对深度神经网络进行训练并生成能够识别金融实体属性的深度预训练模型,
针对中文金融先验知识提取并输出中文金融文本中的关键词的位置信息和重要性向量;
根据中文金融文本中的关键词的位置信息进行编码以得到注意力掩码,并且将所述注意力掩码与中文金融文本的实体信息输入至所述深度预训练模型以获取文本特征向量;
基于输入的所述文本特征向量和所述重要性向量预测金融实体关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211094335.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:受端电网稳定性的分析方法、装置、设备及存储介质
- 下一篇:一种调节式景观花架





