[发明专利]基于文章实体词依赖关系的金融领域篇章级事件抽取方法有效
申请号: | 202110648901.1 | 申请日: | 2021-06-10 |
公开(公告)号: | CN113255321B | 公开(公告)日: | 2021-10-29 |
发明(设计)人: | 王海涛;许浩;刘智;周丹;孙婉琪;马雪环 | 申请(专利权)人: | 之江实验室 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/216;G06F40/295 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310023 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 文章 实体词 依赖 关系 金融 领域 篇章 事件 抽取 方法 | ||
1.一种基于文章实体词依赖关系的金融领域篇章级事件抽取方法,其特征在于,包括以下步骤:
(1)实体词抽取:将中文文章转换为包含n个实体的实体集E={e1,e2,e3,……,en};
(2)实体词向量映射模块:使用Embedding映射方法将实体集E的汉语实体映射为向量空间的实体词向量集,实体词向量为:
其中,i=1~n,ei为第i个实体,LM为向量映射函数,We为生成实体词向量的可训练参数;
(3)候选论元集抽取:利用基于预训练语言模型的序列标注方法抽取文章的候选论元集A={a1,a2,……,aK};
(4)构建实体依赖关系和结构化自注意力模块:根据实体集中的实体词E={e1,e2,e3,……,en}及其在文章中的位置,构建不同类型的实体依赖关系;结构化自注意力模块构建结构化实体依赖特征,并输出融合了结构化实体依赖特征的实体集;
(5)候选触发词集抽取:以融合了结构化实体依赖特征的实体集为输入,利用基于预训练语言模型的序列标注方法抽取文章的候选触发词集合T={T1,T2,……,Tu};
(6)层次化金融事件注意力模块:利用预定义的层次化金融事件结构,结合注意力机制模型生成层次化金融事件特征;
(7)以Pedal Attention机制为基础的事件触发词、事件论元联合预测:PedalAttention机制模块基于步骤(2)得到的实体词向量集,得到实体间的语义关系特征;论元抽取模块基于候选论元集、候选触发词集合、层次化金融事件特征和实体间的语义关系特征,得到对应候选论元的概率集合;触发词抽取模块基于候选触发词集合、层次化金融事件特征和实体间的语义关系特征,得到对应候选触发词的概率集合;联合预测模块基于两个概率集合预测文章中事件的触发词T’及构成事件的论元集A’;
步骤(3)具体如下:
(3.1)使用BIO标注策略进行实体标注;
(3.2)使用基于预训练语言模型BERT的序列标注模型进行候选论元抽取;
(3.3)输出候选论元集A={a1,a2,……,aK};
步骤(6)具体如下:
层次化金融事件结构将金融事件中的多个细分事件划分成不同的大类事件,具体为:大类事件包括融资、交易、股权增减持、金融指标变化、多方合作、人事变动、上市相关和执法;其中,融资包括质押、解质押和企业借款,交易包括股份回购和企业并购,股权增减持包括股份减持和股份增持,金融指标变化包括亏损,多方合作包括中标,人事变动包括高级经理变动,上市相关包括公司上市和破产清算,执法包括被约谈和处罚;
基于步骤(5)提取的候选触发词集合,将大类事件特征与细分事件特征进行分别处理,大类事件特征与细分事件特征分别通过层次事件注意力机制,对所有候选论元产生重要性权重值和其中,是候选触发词所属大类事件生成的候选论元重要性权重值,是候选触发词所属细分事件生成的候选论元重要性权重值;基于层次化金融事件结构,得到第it个候选触发词对应的注意力权重
第it个候选触发词对应的层次化金融事件特征通过如下计算得到:
其中,为候选论元的向量表示,是中候选触发词it与候选论元jt的权重关系,Me和be是层次化金融事件注意力模块的可训练参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110648901.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种大理石喷砂磨砂装置
- 下一篇:一种缓解体力疲劳的中药组合物及其应用