[发明专利]基于词向量和句法特征的评论分析方法及可视化交互界面有效

专利信息
申请号: 201910343337.5 申请日: 2019-04-26
公开(公告)号: CN110175325B 公开(公告)日: 2023-07-11
发明(设计)人: 吕奇;沈楠楠;胡新春;陈可佳 申请(专利权)人: 南京邮电大学
主分类号: G06F40/242 分类号: G06F40/242;G06F16/9532;G06F40/30;G06F40/284;G06Q30/0601
代理公司: 南京苏科专利代理有限责任公司 32102 代理人: 陈栋智
地址: 225000 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 向量 句法 特征 评论 分析 方法 可视化 交互 界面
【权利要求书】:

1.一种基于词向量和句法特征的评论分析方法,其特征在于,包括以下步骤:

1)获取电商网站商品页面评论数据;

2)将获取的目标数据集进行预处理,并构建候选情感词集;

3)提取Hownet和NTU提供的褒贬词集组成基础情感词典;

4)将所得到的经过预处理的数据集合通过Word2Vec工具进行词向量训练,得到词向量并生成语义相似度矩阵,步骤4)具体包括:

4-1)利用Word2Vec训练数据集,得到词语的词向量;

4-2)结合候选情感词集,采用如下公式计算词语之间的语义相似度:

4-3)例如两个n维词向量a(x11,x12,…,x1n)和b(x21,x22,…,x2n),其语义相似度计算公式如下:

其中,cosθ表示语义相似度值;x1k表示词向量a第k维度数值;x2k表示词向量b第k维度数值;

4-4)根据计算出的语义相似度构建语义相似度矩阵;

5)使用语义相似度矩阵建立概率转移矩阵,并结合种子词集通过LPA标签传播算法且经过基础情感词典检验后生成最终的情感词典,步骤5)具体包括:

5-1)将每个词看作图的节点,两个节点间边的权重用其所代表词之间的语义相似度表示;

5-2)根据如下公式建立概率转移矩阵P:

其中,P[i][j]表示词语i到j之间的相似度转移概率,SIM(wi,wj)表示词语i和j的相似度,m表示与词语i语义相似度最高的词的个数;

5-3)统计候选情感词集中所有情感词在原始评论数据中的词频,筛选出词频最高的N个词,组成种子词集1;利用情感词汇本体库,筛选出情感词汇本体强度m且在候选情感词集中的词,组成种子词集2;将种子词集1和种子词集2合并后去重,组成种子词集,进行人工情感标注;

5-4)利用人工标注的少量种子词建立LxC的label矩阵YL,其中:L表示种子词个数;C表示类的个数,分为3类,分别为褒义,贬义,中性;

5-5)同时利用未标注的样本词建立UxC的label矩阵YU,其中:U表示未标注样本词个数;C表示类的个数,分为3类,分别为褒义,贬义,中性;

5-6)最后采用LPA标签传播算法对所述样本词进行词性标注,并通过基础情感词典检验后,形成最终的情感词典;

6)将获取的商品评论文本,进行基于核心句规则的处理,得到去除冗余的评论文本;

7)将所得到的去除冗余的文本进行预处理,对得到的分词数据集合基于依存关系、句法特征形成依存关系树,生成SBV、VOB、ATT、CMP、COO依存关系对;

8)对所得依存关系对通过词性提取商品属性,否定词,程度词,情感词评价搭配对;

9)将所得评价搭配对结合情感词典,对评价对象进行褒贬值计算、优劣排序,最终通过可视化交互界面实现。

2.根据权利要求1所述的基于词向量和句法特征的评论分析方法,其特征在于,步骤2)具体包括:

2-1)使用字符匹配算法去除非法字符;

2-2)将原始数据集使用LTP进行分词、词性标注;

2-3)提取符合词性的词,经过去重,组成候选情感词集1;

2-4)将原始数据集使用NLPIR进行分词、词性标注;

2-5)提取符合词性的词,经过去重,组成候选情感词集2;

2-6)将候选情感词集1和候选情感词集2组合,经过去重,得到候选情感词集。

3.根据权利要求1所述的基于词向量和句法特征的评论分析方法,其特征在于,步骤3)具体包括:利用hownet情感词典和ntu评价词词典,分别提取其中的褒贬词,合并后去重,组成基础情感词典。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910343337.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top