[发明专利]一种事件抽取方法、相关装置、设备及存储介质在审
申请号: | 202110546916.7 | 申请日: | 2021-05-19 |
公开(公告)号: | CN113761122A | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 李涓子;王子奇;王晓智;韩旭;林衍凯;侯磊;刘知远;李鹏;周杰 | 申请(专利权)人: | 清华大学;腾讯科技(深圳)有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/335;G06F16/36;G06F16/35;G06F40/30 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 聂秀娜 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 事件 抽取 方法 相关 装置 设备 存储 介质 | ||
1.一种事件抽取方法,其特征在于,包括:
获取待处理文本,其中,所述待处理文本包括N个词语,所述N为大于1的整数;
根据所述待处理文本生成抽象语义表示,其中,所述抽象语义表示包括与所述词语一一对应的结点,以及用于连接所述结点之间边;
对所述抽象语义表示以及所述待处理文本进行语义编码处理,得到语义嵌入向量,其中,所述语义嵌入向量用于表示每个所述词语与事件之间的语义特征;
对所述抽象语义表示进行图编码处理,得到图嵌入向量,其中,所述图嵌入向量为用于表示通过所述边相连接的所述结点之间的结构特征;
将所述语义嵌入向量与所述图嵌入向量进行拼接,得到拼接特征向量;
对所述拼接特征向量进行识别,输出目标事件,其中,所述目标事件包括从N个所述词语中抽取出的触发词以及角色词,所述触发词用于指示所述待处理文本中的发生的所述事件,所述角色词用于指示所述待处理文本中的各个实体在所述事件中角色。
2.根据权利要求1所述的方法,其特征在于,在所述对所述抽象语义表示进行图编码处理,得到图嵌入向量之前,所述方法还包括:
将所述待处理文本进行结点编码处理,得到结点编码向量,所述结点编码向量用于初始化每个所述词语与所述事件之间的语义特征;
所述对所述抽象语义表示进行图编码处理,得到图嵌入向量包括:
将所述结点编码向量以及所述抽象语义表示通过图编码模型进行图编码处理,得到所述图嵌入向量。
3.根据权利要求1所述的方法,其特征在于,所述对所述拼接特征向量进行事件识别,输出目标事件包括:
根据动态最大池化算法确定所述语义嵌入向量对应的触发词最大池化特征向量以及角色词最大池化特征向量;
将所述触发词最大池化特征向量以及所述角色词最大池化特征向量与所述拼接特征向量进行拼接,得到待识别特征向量;
对所述待识别特征向量进行分类识别,得到所述目标事件。
4.根据权利要求1所述的方法,其特征在于,所述对所述拼接特征向量进行事件识别,输出目标事件还包括:
对所述拼接特征向量进行谱聚类,得到结点聚类图,其中,所述结点聚类图包括聚类结点以及连接所述聚类结点的聚类边;
根据所述聚类边的距离确定所述聚类结点之间的边权重值;
对所述结点聚类图进行切图处理,得到K个聚类子图,所述K为大于1的整数;
当每个所述聚类子图的边权重值符合预设的权重值时,输出所述目标事件。
5.根据权利要求1所述的方法,其特征在于,所述对所述抽象语义表示进行语义编码处理,得到语义嵌入向量包括:
根据序列编码模型对所述抽象语义表示进行编码,得到所述语义嵌入向量,所述序列编码模型用于对通过所述边连接的所述结点进行时序性编码。
6.根据权利要求1所述的方法,其特征在于,在根据所述待处理文本生成抽象语义表示之前,所述方法还包括:
获取数据库中的待处理语料,所述待处理语料包括M个句子,所述M为大于等于1的整数;
将所述待处理语料生成抽象语义表示集合,所述抽象语义表示集合包括与所述句子对应结点集,以及连接所述结点之间边形成的边集。
7.根据权利要求6所述的方法,其特征在于,在所述将所述待处理语料生成抽象语义表示集合之后,所述方法还包括:
根据所述抽象语义表示集合生成对比学习训练数据集;
根据所述对比学习训练数据集对基础模型进行预训练,得到训练模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学;腾讯科技(深圳)有限公司,未经清华大学;腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110546916.7/1.html,转载请声明来源钻瓜专利网。