[发明专利]一种基于BERT语义增强的因果关系抽取方法在审

专利信息
申请号: 202210184092.8 申请日: 2022-02-23
公开(公告)号: CN114548117A 公开(公告)日: 2022-05-27
发明(设计)人: 朱广丽;孙争艳;魏苏波;张顺香;许鑫;吴厚月 申请(专利权)人: 安徽理工大学
主分类号: G06F40/30 分类号: G06F40/30;G06F40/242;G06F16/35;G06N3/04
代理公司: 暂无信息 代理人: 暂无信息
地址: 232000 安徽*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 bert 语义 增强 因果关系 抽取 方法
【说明书】:

发明公开了一种基于BERT语义增强的因果关系抽取方法。所述因果关系抽取方法包括:因果关系候选词库、BERT预训练、因果关系抽取。该方法是一种快速提取文本中存在的因果关系的信息抽取技术,核心任务是在LeakGAN对抗神经网络模型的架构下建立基本模型和增强模型进行对抗学习获得高区分度的特征,分析评论文本中存在的因果关系,实现语义增强下的深层次抽取。该方法基于对抗神经网络的对抗性学习更有区分度的特征,提高因果关系抽取的准确度,可应用于事件预测、问答系统以及情景生成等方面。

技术领域

本发明涉及因果关系抽取领域,尤其涉及一种基于BERT语义增强的因果关系抽取方法。

背景技术

近年来,因果关系抽取技术在自然语言处理任务的各个方面都已经产生影响,得到了广泛的应用。由于不同领域其因果关系模式的独特性和多样性、评论文本语义结构的复杂性、表达方式的多样性等因素,不可避免的增加了不同领域评论文本因果关系抽取的难度。

在事件预测、问答系统以及情景生成等方面,因果关系抽取技术有很高的应用价值。同时,由于评论文本信息冗余量大,需要用机器学习手段快速提取出有价值的信息,因此因果关系抽取是一项重要的任务。评论文本具有复杂专有名词、价值密度低、信息零碎等特点,使得文本存在语义模糊问题,导致因果关系抽取的准确率低,使得因果关系抽取同样也是一项具有挑战性的任务。

针对现有因果关系抽取上存在语义模糊问题导致特征学习困难的缺陷,提出一种基于BERT语义增强的因果关系抽取方法。

发明内容

本发明的目的在于提供一种基于BERT语义增强的因果关系抽取方法。这是一种针对现有因果关系抽取上存在语义模糊特征学习困难的缺陷,结合了BERT预训练技术和LeakGAN对抗神经网络模型,提出语义增强的因果关系抽取方法。该方法的主要任务是使用构建的因果关系抽取模型学习具有高区分度的特征,同时结合因果关系候选词库,提高因果抽取的准确度。为了实现上述功能,本发明提供的技术方案,包括如下步骤:

1)构建因果关系候选词库。本文使用了因果关系先验知识与语义数据相结合的方法,从金融领域评论文本中提取因果关系候选词,在BERT预训练的过程中,将提取的候选词选择匹配度最高的3个候选词传入BERT,更好的学习句子中复杂的专有名词。

2)构建因果关系抽取模型。为了使模型学习更多的语义信息,采用重复描述因果关系的方法,增强了文本语义的表示,同时为了更好的学习特征,进行多特征融合,进一步解决了模糊语义对因果关系抽取的影响,帮助用户更高效的抽取因果关系。

所述构建因果关系候选词库,由于因果关系通常都是具有较大情感极性强度的词组,因此本发明将优先考虑词组的情感极性强度。由于因果关系可能是正向的情感,也可能的是负向的情感,因此不单考虑是为正向情感词还是为负向情感词,更多考虑的是词组的情感度,选用的是知网的Hownet情感词典,首先计算情感词典中情感词语在金融领域评论语料库中的频率,再结合评论文本中人工标注的情感强度加权计算出因果关系词组的情感强度(the Emotional Intensity of Causal Words,EIC),筛选出数值较大的2000个词语,构成因果关系词的情感强度词库。

进一步的,所述情感强度划分为4个等级,分别为0级、1级、2级、3级,划分的依据主要考虑以下2个方面:短语中每个词的情感强度的加权平均值、短语在整个标注语料库中出现的频率。

进一步的,所述因果词情感强度(the Emotional Intensity of Causal Words,EIC)用于衡量因果词i在标注语料库中的情感强度,即从因果关系词中计算因果关系词的情感极性强度,借助情感强度特征可以更准确的抽取因果关系词,提高抽取的准确度,如公式EICi=|Fi*Ii|*Ei*Wi

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽理工大学,未经安徽理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210184092.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top