[发明专利]一种基于图卷积神经网络融合支持向量机的中文词义消歧方法在审
申请号: | 202111524927.1 | 申请日: | 2021-12-14 |
公开(公告)号: | CN114186560A | 公开(公告)日: | 2022-03-15 |
发明(设计)人: | 刘睿;仇化平;赫斌 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06K9/62;G06N3/04;G06F16/35;G06F16/33 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150080 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 图卷 神经网络 融合 支持 向量 中文 词义 方法 | ||
本发明涉及一种基于图卷积神经网络(Graph Convolution Network,GCN)融合支持向量机(Support Vector Machine,SVM)的中文词义消歧方法。本发明首先预处理语料。对训练和测试语料的语句进行分词、词性标注和语义标注处理。以歧义词所在的句子以及歧义词两侧词汇单元的词形、词性和语义类作为消歧特征,消歧特征作为节点来构建词义消歧图。使用Word2Vec、Doc2Vec工具、逐点互信息(PMI)、TF‑IDF算法对图中节点和边的权值进行计算。训练语料训练GCN模型,将模型优化。利用优化后的GCN模型计算训练和测试语料的消歧特征,再将训练语料计算后的消歧特征输入SVM分类器中,优化SVM分类器,再对测试语料进行分类,得到歧义词汇在语义类别下分类情况。本发明具有较好的词义消歧效果,准确的判断歧义词汇的真实含义。
技术领域:
本发明涉及一种基于图卷积神经网络融合支持向量机的中文词义消歧方法,该方法可以很好的应用在自然语言处理领域。
背景技术:
谈到自然语言处理,往往涉及到语言中一词多义的现象,它影响着具有篇章理解能力的机器翻译、自动文摘、问答系统、舆情分析、机器写作、信息检索和文本分类等自然语言处理领域应用。为了使以上应用领域有更好的准确性或者获得更加符合人们所预期的结果。要对多种语义的词进行消歧处理,即词义消歧,根据上下文特定的语言环境,找出歧义词汇的真实语义,提高词汇表示的准确性。
在词义消歧技术层面上来说,深度学习神经网络等智能算法的火热,也给词义消歧技术带来不小的发展。配合着自然语言处理领域中的句法分析、语义分析、语法分析等技术,逐步地提高了词义消歧的效果。但是,这些传统的算法存在着一些缺点,不能充分的提取消歧特征或者仅限于局部消歧特征提取,且分类器分类效果不是很好。近年来,深度学习算法已经广泛的应用到自然语言处理领域,像循环神经网络、卷积神经网络等算法模型,这些深度学习算法可以更好的提取消歧特征。图卷积神经网络(GraphConvolutionNetwork,GCN)模型是最近几年提出来的深度学习算法,此模型直接在图上进行建模,通过构造词义消歧图的形式,可以将消歧特征更好的提取出来,将节点以及其邻域节点的消歧特征进行融合。对于歧义词汇而言,可以很好地应用GCN网络来进行词义消歧,而支持向量机(SupportVectorMachine,SVM)则可以更好的实现语义的正确分类。
发明内容:
鉴于此,为了解决自然语言处理领域中针对中文里一词多义的现象,本发明公开了一种基于图卷积神经网络融合支持向量机的中文词义消歧方法。
为此,本发明提供了如下技术方案:
1.基于图卷积神经网络融合支持向量机的中文词义消歧方法,其特征在于,该方法包括以下步骤:
步骤1:对语料中所包含的所有汉语句子进行分词、词性标注和语义类标注,选取歧义词汇所在的句子,以及歧义词左右两侧所有邻接词汇单元的词形、词性和语义类作为消歧特征。
步骤2:提取歧义词汇所在的句子,以及歧义词左右两侧所有邻接词汇单元的词形、词性和语义类,使用Doc2Vec工具将提取的句子特征进行向量化处理,使用Word2Vec工具将词形、词性和语义类特征进行向量化处理。语料数据集选用SemEval-2007:Task#5的训练语料和测试语料。
步骤3:构建词义消歧图,将提取的句子,以及歧义词左右两侧所有邻接词汇单元的词形、词性和语义类作为图中的节点。构建词形与词形节点之间的边,词形与句子节点之间的边,词形与词性节点之间的边,词形与语义类节点之间的边。
步骤4:词义消歧模型训练过程为:由训练语料提取完消歧特征构建好的词义消歧图输入到GCN模型里面进行训练,得到优化后的GCN模型;对于测试语料,提取完消歧特征构建好的词义消歧图输入到优化后的GCN模型;分别计算训练语料消歧特征和测试语料的消歧特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111524927.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种爬绳机测试方法及装置
- 下一篇:一种自动驾驶策略生成方法及系统