本发明涉及一种嵌入语义相似度的图采样聚合(Graph SAmple and aggreGatE,GraphSAGE)多投票词义消歧方法。本发明首先对包含歧义词的汉语句子进行分词、词性标注、语义类标注、译文标注和五笔编码标注处理。以包含歧义词的句子,以及歧义词左右两个词汇单元所包含的词形、词性、语义类、译文和五笔编码作为消歧特征并作为节点来构建五种消歧特征图。使用《同义词词林》计算目标歧义词与邻接词汇的语义相似度,使用Word2Vec工具、Doc2Vec工具对特征进行向量化处理,并将语义相似度权重嵌入到特征向量中。用训练语料优化多GraphSAGE神经网络,用优化后的多GraphSAGE神经网络结合感知机线性分类器得到每种消歧特征图的语义分类结果,采取投票机制确定歧义词汇的语义类别。本发明具有较好的词义消歧效果,更准确地判断歧义词汇的真实含义。
本发明涉及一种基于多路图采样聚合(Graph SAmple and aggreGatE,GraphSAGE)神经网络的词义消歧方法。本发明首先对包含歧义词的语句进行分词、词性标注、语义类标注和偏旁部首标注处理。以包含歧义词的句子,以及句中所包含的词形、词性、语义类和偏旁部首作为消歧特征并作为节点来构建四种词义消歧特征图,使用Word2Vec工具、Bi‑LSTM网络和Attention机制对特征进行向量化处理。用训练语料优化多路GraphSAGE神经网络。用优化后的多路GraphSAGE神经网络,对测试语料进行词义消歧,可得到歧义词汇在各个语义类别下的概率分布。把概率最大值对应的语义类作为歧义词汇的语义类。本发明具有较好的词义消歧效果,更准确地判断歧义词汇的真实含义。