本发明公开了一种属性词提取方法,该方法提出了双编码器的神经网主题模型结构,使用预设的属性编码器和辅助编码器进行评论文档的编码,解决了无法编码评论文档中情感表达偏差的问题,同时引入弱监督的种子词信息,提升双编码器神经网主题模型的学习效果,并且还引入了知识蒸馏思想,将属性编码器和辅助编码器作为知识蒸馏的教师模型和学生模型,实现双编码器的联合学习,完成迭代训练。相对于现有技术,本发明能够精准地提取评论文本中的属性词,在细粒度情感分析任务总提升情感分析的准确性。
1.一种属性词提取方法,其特征在于,包括步骤:S101:获取语料库中的评论文档以及所述评论文档对应的第一词袋表示,根据所述评论文档对应的第一词袋表示和预设的第一多层感知机,得到所述评论文档对应的全局信息向量;S102:获取所述语料库的多个预定义属性下的种子词、所述种子词对应的词向量以及不同所述评论文档中每个种子词的权重,根据所述权重对所述评论文档中所述种子词的词向量进行加权平均,得到种子词信息向量;拼接所述全局信息向量和种子词信息向量得到信息拼接向量,根据所述信息拼接向量和预设的属性编码器得到所述评论文档的属性标签和属性标签向量;S103:根据所述属性标签对所述全局信息向量进行归一化处理,得到归一化向量;根据所述归一化向量和预设的辅助编码器,获取所述评论文档的辅助语义信息向量;S104:将所述辅助语义信息向量作为查询向量,根据所述种子词对应的词向量和预设注意力机制,更新所述评论文档中所述种子词的权重;S105:获取属性矩阵,根据所述属性矩阵和预设的语义解码器对所述属性标签向量和所述辅助语义信息向量进行解码,获取文档语义向量;S106:获取词表词向量矩阵,对所述词表词向量矩阵和所述文档语义向量解码重构,得到所述评论文档的第二词袋表示;根据所述第二词袋表示和第一词袋表示计算重构误差,根据所述重构误差和预设的优化算法更新目标参数,重复执行上述步骤S101至S105,直至满足终止条件;其中,所述目标参数包括所述第一多层感知机、所述属性编码器、所述辅助编码器、所述注意力机制、所述语义解码器以及所述对所述词表词向量矩阵和所述文档语义向量解码重构中使用的所有参数以及所述属性矩阵和所述词表词向量矩阵;S107:根据所述属性矩阵和所述词表词向量矩阵,得到属性-词分布矩阵,根据属性-词分布矩阵提取所述评论文档的属性词。
本文链接:http://www.vipzhuanli.com/tech/sell/s_672912.html,转载请声明来源钻瓜专利网。