[发明专利]一种基于主题特征和隐式句子结构的事件抽取方法在审
申请号: | 202111178364.5 | 申请日: | 2021-10-09 |
公开(公告)号: | CN113901813A | 公开(公告)日: | 2022-01-07 |
发明(设计)人: | 黄婉华;漆桂林;高桓 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 杜静静 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 主题 特征 句子 结构 事件 抽取 方法 | ||
1.一种基于主题特征和隐式句子结构的事件抽取方法,其特征在于,该方法包括以下步骤:
1)数据处理及主题特征抽取:将原始数据集重构成JSON格式,对于读取的数据集中的每个样本发明档,进行主题特征抽取,然后利用NLTK包中的分句工具对样本发明档进行分句得到样本句子;
2)隐式句子结构抽取:对于每个样本句子,首先利用语言模型Bert获得句子中的词嵌入作为句子上下文特征,然后对于这个词嵌入序列,利用一种屏蔽机制对句子中各成分之间的相互影响程度进行计算,作为隐式句子结构特征,用于后续的事件抽取联合方法;
3)基于级联式CRF的事件触发词抽取模块,采用一种级联的序列标注方法将抽取任务分解成边界标注和类型判别两个任务,先标记事件触发词的边界,然后判断其对应的事件类型;
4)利用Bi-LSTM融入句法信息的事件元素抽取模块,在正向和反向的递归过程中引入影响矩阵中的数据,在当前词节点及其强相关的词节点之间建立对应的联系,使得句法信息能够在LSTM节点之间传播,最终使句法信息融入单词的向量表示中;
5)联合训练,以交叉熵损失函数来分别计算事件触发词抽取模块和事件元素抽取模块的损失,并且对事件触发词和事件元素抽取进行联合训练以避免错误累积问题,为了两个子任务的损失项在同一时刻收敛,最终的损失由两个子任务的损失之和表示。
2.根据权利要求1所述的基于主题特征和隐式句子结构的事件抽取方法,其特征在于,所述步骤1)中,按照如下方式抽取出主题特征:
1-1)利用面向长句编码的Sentence-Transformer得到每个文档具有上下文语义信息的上下文表示;
1-2)然后利用主题模型LDA得到每个文档的主题分布信息;
1-3)利用上述两个向量训练一个自编码器用于将这两个向量进行融合,以自编码器的结果作为每个文档的主题特征。
3.根据权利要求1所述的基于主题特征和隐式句子结构的事件抽取方法,其特征在于,所述步骤2)中根据以下特征构建训练数据集:
2-1)将输入序列中的任意一个单词xi替换成屏蔽字符[MASK]得到新的输入序列,将该序列输入到BERT中得到的结果hi,将hi作为xi的表示;
2-2)更为了得到句子中其他成分xj对xi的影响,进而将输入序列中的xj也特换成屏蔽字符[MASK],再输入BERT中得到xi的新表示Hij;
2-3)利用欧式距离来计算Hij和hi在语义空间中的距离f(xi,xj),最终得到句子中两两成分之间的影响程度矩阵该矩阵即为隐式句子结构信息,可以表征任意两个句子成分之间的相互影响程度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111178364.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:发现道路阻断的方法、装置、设备以及存储介质
- 下一篇:显示装置及控制方法