[发明专利]一种中文事件触发词抽取方法及装置有效
申请号: | 202110647875.0 | 申请日: | 2021-06-10 |
公开(公告)号: | CN113468884B | 公开(公告)日: | 2023-06-16 |
发明(设计)人: | 杨昊;赵刚;王兴芬 | 申请(专利权)人: | 北京信息科技大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/211;G06F40/30;G06F40/216;G06N3/045;G06N3/0442 |
代理公司: | 北京天方智力知识产权代理事务所(普通合伙) 11719 | 代理人: | 路远 |
地址: | 100192 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 事件 触发 抽取 方法 装置 | ||
本发明提供一种中文事件触发词抽取方法及装置。所述方法包括:对输入文本进行预处理;初始向量化;利用异构注意力网络,有侧重地捕捉与当前节点同一类型邻居节点的特征,有侧重地捕捉与当前节点不同类型邻居节点的特征;将类型注意力网络的输出输入到一个条件随机场,输出标注序列,实现触发词的抽取。本发明利用全分词和依存句法分析相结合,通过融入单词的义原信息,将单词的多个语义信息融合至字符之中,解决了触发词抽取任务中的歧义分词问题及中文词语语义歧义性的问题。本发明利用包括节点注意力网络和类型注意力网络的异构图注意力网络,能够有侧重地捕捉异构图中邻居节点的特征,提高了中文事件触发词的抽取的准确度。
技术领域
本发明属于自然语言处理技术领域,具体涉及一种中文事件触发词抽取方法及装置。
背景技术
事件抽取作为信息抽取的一部分,在舆情分析、自动问答、知识推理等方面具有现实意义。事件抽取是指要求人们用人工或者自动的方法,从半结构化、非结构化数据中,识别出与目标相关的触发词。触发词作为事件的核心词,决定着事件的类型,故事件触发词的抽取作为事件抽取的子任务,具备深入研究的现实意义。现有中文的事件触发词抽取面临着歧义分词和词语语义歧义两大问题。现有的中文事件触发词抽取技术主要分为三种:一是利用传统的机器学习方法,其存在问题是在特征提取时过度依赖NLP工具,并且仅能捕获语句内的显示特征;二是利用CNN、RNN等神经网络及其各种改良的方法,其存在问题是依据固定分词,不能很好地解决歧义分词和词语语义歧义的问题;三是利用图卷积网络、图注意力网络等图神经网络的方法,其存在问题是多是仅利用字构建同构图结构或利用字与分词结果构建异构图结构,再利用图卷积网络或图注意力网络等方法,完成中文事件触发词的抽取,其并不能解决词语语义歧义的问题。
综上,现有中文触发词抽取技术由于特征捕获不完全和歧义问题均在一定程度上影响了字符的表征,进而影响了中文事件触发词的抽取效果。
发明内容
为了解决现有技术中存在的上述问题,本发明提供一种中文事件触发词抽取方法及装置。
为了实现上述目的,本发明采用以下技术方案。
第一方面,本发明提供一种中文事件触发词抽取方法,包括以下步骤:
对输入文本进行全分词、依存句法分析,提取依存句法分析中未出现的单词的所有义原;
对提取的字符、单词、义原进行初始向量化,利用双向长短期记忆网络BiLSTM对每个句子中的字符进行训练,得到每个字符能够记忆其句中前后字符特征的向量表征;
将BiLSTM的输出输入到节点注意力网络,有侧重地捕捉与当前节点同一类型邻居节点的特征,将节点注意力网络的输出输入到类型注意力网络,有侧重地捕捉与当前节点不同类型邻居节点的特征;节点类型包括字符节点、单词节点和义原节点;
将类型注意力网络的输出输入到一个条件随机场,输出标注序列,实现触发词的抽取。
进一步地,节点注意力网络的输出为:
eij=LeakyReLU(vτ[Wτhi,Wτhj])
式中,为节点注意力网络第i个节点的输出向量,σ、LeakyReLU为激励函数,Nτ,i表示与第i个节点即当前节点相邻的τ类型节点的集合,Wτ为τ类型节点的维度变换矩阵,aij为第j个节点输入向量hj的权重,eij为第i个节点与第j个节点的相似度,vτ为τ类型节点的权重矩阵,hi为第i个节点输入向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110647875.0/2.html,转载请声明来源钻瓜专利网。