[发明专利]基于词向量和句法特征的评论分析方法及可视化交互界面有效
申请号: | 201910343337.5 | 申请日: | 2019-04-26 |
公开(公告)号: | CN110175325B | 公开(公告)日: | 2023-07-11 |
发明(设计)人: | 吕奇;沈楠楠;胡新春;陈可佳 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F16/9532;G06F40/30;G06F40/284;G06Q30/0601 |
代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 陈栋智 |
地址: | 225000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 向量 句法 特征 评论 分析 方法 可视化 交互 界面 | ||
1.一种基于词向量和句法特征的评论分析方法,其特征在于,包括以下步骤:
1)获取电商网站商品页面评论数据;
2)将获取的目标数据集进行预处理,并构建候选情感词集;
3)提取Hownet和NTU提供的褒贬词集组成基础情感词典;
4)将所得到的经过预处理的数据集合通过Word2Vec工具进行词向量训练,得到词向量并生成语义相似度矩阵,步骤4)具体包括:
4-1)利用Word2Vec训练数据集,得到词语的词向量;
4-2)结合候选情感词集,采用如下公式计算词语之间的语义相似度:
4-3)例如两个n维词向量a(x11,x12,…,x1n)和b(x21,x22,…,x2n),其语义相似度计算公式如下:
其中,cosθ表示语义相似度值;x1k表示词向量a第k维度数值;x2k表示词向量b第k维度数值;
4-4)根据计算出的语义相似度构建语义相似度矩阵;
5)使用语义相似度矩阵建立概率转移矩阵,并结合种子词集通过LPA标签传播算法且经过基础情感词典检验后生成最终的情感词典,步骤5)具体包括:
5-1)将每个词看作图的节点,两个节点间边的权重用其所代表词之间的语义相似度表示;
5-2)根据如下公式建立概率转移矩阵P:
其中,P[i][j]表示词语i到j之间的相似度转移概率,SIM(wi,wj)表示词语i和j的相似度,m表示与词语i语义相似度最高的词的个数;
5-3)统计候选情感词集中所有情感词在原始评论数据中的词频,筛选出词频最高的N个词,组成种子词集1;利用情感词汇本体库,筛选出情感词汇本体强度m且在候选情感词集中的词,组成种子词集2;将种子词集1和种子词集2合并后去重,组成种子词集,进行人工情感标注;
5-4)利用人工标注的少量种子词建立LxC的label矩阵YL,其中:L表示种子词个数;C表示类的个数,分为3类,分别为褒义,贬义,中性;
5-5)同时利用未标注的样本词建立UxC的label矩阵YU,其中:U表示未标注样本词个数;C表示类的个数,分为3类,分别为褒义,贬义,中性;
5-6)最后采用LPA标签传播算法对所述样本词进行词性标注,并通过基础情感词典检验后,形成最终的情感词典;
6)将获取的商品评论文本,进行基于核心句规则的处理,得到去除冗余的评论文本;
7)将所得到的去除冗余的文本进行预处理,对得到的分词数据集合基于依存关系、句法特征形成依存关系树,生成SBV、VOB、ATT、CMP、COO依存关系对;
8)对所得依存关系对通过词性提取商品属性,否定词,程度词,情感词评价搭配对;
9)将所得评价搭配对结合情感词典,对评价对象进行褒贬值计算、优劣排序,最终通过可视化交互界面实现。
2.根据权利要求1所述的基于词向量和句法特征的评论分析方法,其特征在于,步骤2)具体包括:
2-1)使用字符匹配算法去除非法字符;
2-2)将原始数据集使用LTP进行分词、词性标注;
2-3)提取符合词性的词,经过去重,组成候选情感词集1;
2-4)将原始数据集使用NLPIR进行分词、词性标注;
2-5)提取符合词性的词,经过去重,组成候选情感词集2;
2-6)将候选情感词集1和候选情感词集2组合,经过去重,得到候选情感词集。
3.根据权利要求1所述的基于词向量和句法特征的评论分析方法,其特征在于,步骤3)具体包括:利用hownet情感词典和ntu评价词词典,分别提取其中的褒贬词,合并后去重,组成基础情感词典。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910343337.5/1.html,转载请声明来源钻瓜专利网。