[发明专利]一种基于图卷积神经网络融合支持向量机的中文词义消歧方法在审
申请号: | 202111524927.1 | 申请日: | 2021-12-14 |
公开(公告)号: | CN114186560A | 公开(公告)日: | 2022-03-15 |
发明(设计)人: | 刘睿;仇化平;赫斌 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06K9/62;G06N3/04;G06F16/35;G06F16/33 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150080 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 图卷 神经网络 融合 支持 向量 中文 词义 方法 | ||
1.一种基于图卷积神经网络融合支持向量机的中文词义消歧方法,主要包括以下步骤:
步骤1:对语料中所包含的所有汉语句子进行分词、词性标注和语义类标注,选取歧义词汇所在的句子,以及歧义词左右两侧所有邻接词汇单元的词形、词性和语义类作为消歧特征,一共四种消歧特征;
步骤2:提取歧义词汇所在的句子,以及歧义词左右两侧所有邻接词汇单元的词形、词性和语义类,使用Doc2Vec工具将提取的句子特征进行向量化处理,使用Word2Vec工具将词形、词性和语义类特征进行向量化处理;语料数据集选用SemEval-2007:Task#5的训练语料和测试语料;
步骤3:构建词义消歧图,将提取的句子,以及歧义词左右两侧所有邻接词汇单元的词形、词性和语义类作为图中的节点;构建词形与词形节点之间的边,词形与句子节点之间的边,词形与词性节点之间的边,词形与语义类节点之间的边;
步骤4:词义消歧模型训练过程为:由训练语料提取完消歧特征构建好的词义消歧图输入到GCN模型里面进行训练,得到优化后的GCN模型;对于测试语料,提取完消歧特征构建好的词义消歧图输入到优化后的GCN模型;分别计算训练语料消歧特征和测试语料的消歧特征;
步骤5:词义消歧测试分类过程为:计算后的训练语料的消歧特征输入到SVM分类器中训练SVM分类器,得到优化后的SVM分类器;将计算后的测试语料的消歧特征输入到优化后的SVM分类器中进行语义类别分类,使用分类决策函数来对歧义词汇的语义类进行分类。
2.根据权利要求1所述的基于图卷积神经网络融合支持向量机的中文词义消歧方法,其特征在于,所述步骤1中,对汉语句子进行分词、词性标注和语义类标注,选取消歧特征,具体步骤为:
步骤1-1利用汉语分词工具对汉语句子进行词汇切分;
步骤1-2利用汉语词性标注工具对已切分好的词汇进行词性标注;
步骤1-3利用汉语语义标注工具对已切分好的词汇进行语义类标注;
利用汉语分词工具、汉语词性标注工具和汉语语义标注工具对语料所包含的所有汉语句子进行词汇切分、词性标注和语义类标注,选取歧义词汇所在的句子,以及歧义词左右两侧所有邻接词汇单元的词形、词性和语义类作为消歧特征。
3.根据权利要求1所述的基于图卷积神经网络融合支持向量机的中文词义消歧方法,其特征在于,所述步骤2中,对SemEval-2007:Task#5的训练语料和测试语料的消歧特征进行向量化处理,具体步骤为:
步骤2-1提取歧义词汇所在的句子,以及歧义词左右两侧所有邻接词汇单元的词形、词性和语义类;
步骤2-2对提取的句子特征使用Doc2Vec工具来进行向量化表示,对提取的词形、词性和语义类特征使用Word2Vec工具分别进行向量化表示;
步骤2-3经过向量化表示后,每一个特征对应于200维的特征向量。
4.根据权利要求1所述的基于图卷积神经网络融合支持向量机的中文词义消歧方法,其特征在于,所述步骤3中,构建词义消歧图,具体步骤为:
步骤3-1将提取的句子,以及歧义词左右两侧所有邻接词汇单元的词形、词性和语义类作为图中的节点;
步骤3-2对节点进行权值嵌入,使用步骤2中所得到的每个特征的特征向量进行权值嵌入;
步骤3-3建立节点与节点之间边的关系,使用PMI方法计算并嵌入词形与词形节点之间的边的权值,使用TF-IDF方法计算并嵌入词形与句子节点之间的边的权值,使用Word2Vec工具计算并分别嵌入词形与词性、词形与语义类节点之间的边的权值;
图中的节点以及边的关系建立完成,并嵌入了其特征的特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111524927.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种爬绳机测试方法及装置
- 下一篇:一种自动驾驶策略生成方法及系统