[发明专利]一种基于问答模式的事件抽取方法、装置和设备在审
| 申请号: | 202210323185.4 | 申请日: | 2022-03-30 |
| 公开(公告)号: | CN114661881A | 公开(公告)日: | 2022-06-24 |
| 发明(设计)人: | 李晓宇;孙显;金力;张泽群;李树超;康瀚锟 | 申请(专利权)人: | 中国科学院空天信息创新研究院 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35;G06F40/216;G06F40/289;G06F40/35;G06K9/62 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 刘翠香 |
| 地址: | 100094*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 问答 模式 事件 抽取 方法 装置 设备 | ||
本申请提供基于问答模式的事件抽取方法、装置和设备,方法包括:目标文本和第一问题模板,并从目标文本中确定与目标事件相关的特征词;根据目标文本、第一问题模板和特征词,确定目标事件的触发词和事件类型;根据目标事件的事件类型,从预设的问题模板集合中确定目标事件的论元匹配的问题模板,作为第二问题模板;根据目标文本、第二问题模板和特征词,确定目标事件的论元和论元类型;根据触发词、事件类型、论元和论元类型,确定目标文本的事件抽取结果。本申请在事件抽取结果时,结合了特征词,有效增强了特征表达;同时,结合了第一问题模板和第二问题模板,使得本申请能准确识别出目标文本中的触发词和论元,提高了事件抽取结果的准确性。
技术领域
本申请涉及信息抽取领域,特别是涉及一种基于问答模式的事件抽取方法、装置和设备。
背景技术
随着互联网的普及和发展,互联网上的文本数据呈现爆发式增长,由于这些文本数据为碎片式的、低信息的数据,需要对其进一步处理。为了提高对文本数据的高效处理能力,对自然语言处理技术的需求急剧增加,作为自然语言处理领域中的子任务,事件抽取应用市场广大,例如,事件抽取在文本摘要、自动问答、信息检索等领域有着重要应用。
因此,亟需一种从目标文本中快速且准确地进行事件抽取的方法。
发明内容
有鉴于此,本申请提供了一种基于问答模式的事件抽取方法、装置和设备,用于对目标文本进行事件抽取,其技术方案如下:
一种基于问答模式的事件抽取方法,包括:
获取目标文本和第一问题模板,其中,第一问题模板为对目标文本所涉及的目标事件的触发词进行提问的文本;
从目标文本中确定与目标事件相关的特征词;
根据目标文本、第一问题模板和特征词,确定目标事件的触发词和事件类型;
根据目标事件的事件类型,从预设的问题模板集合中确定目标事件的论元匹配的问题模板,作为第二问题模板,其中,第二问题模板为针对目标事件的论元进行提问的文本;
根据目标文本、第二问题模板和特征词,确定目标事件的论元和论元类型;
根据触发词、事件类型、论元和论元类型,确定目标文本的事件抽取结果。
可选的,根据目标文本、第一问题模板和特征词,确定目标事件的触发词和事件类型,包括:
将特征词转换为向量形式,转换得到的向量作为目标文法特征向量;
利用预先训练得到的触发词抽取模型处理第一问题模板、目标文本和目标文法特征向量,得到触发词抽取模型输出的触发词标签序列,其中,触发词抽取模型采用第一问题模板、训练文本、训练文本对应的触发词标注序列,同时辅以对应的文法特征向量训练得到,对应的文法特征向量通过将训练文本所涉及的事件相关的特征词转换为向量形式得到;
根据触发词标签序列,确定目标事件的触发词和事件类型。
可选的,触发词抽取模型包括:第一词嵌入模块、第一特征融合模块、第一分类器模块和第一序列搜索模块;
第一词嵌入模块对第一问题模板和目标文本进行编码,得到编码出的语义特征向量,作为第一语义特征向量;
第一特征融合模块对第一语义特征向量和目标文法特征向量进行非线性融合,得到第一融合特征向量;
第一分类器模块根据第一融合特征向量和归一化指数函数,确定目标文本的每个词在各个触发词标签上的概率值;
第一序列搜索模块根据目标文本的每个词在各个触发词标签上的概率值和随机初始化的状态转移矩阵,采用维特比算法确定触发词标签序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院空天信息创新研究院,未经中国科学院空天信息创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210323185.4/2.html,转载请声明来源钻瓜专利网。





