[发明专利]基于三部图和聚类分析的半监督电商评论情感分析方法有效

申请号：	201811386819.0	申请日：	2018-11-20
公开（公告）号：	CN109670039B	公开（公告）日：	2020-10-30
发明（设计）人：	卢昕;薛云;吴海明	申请（专利权）人：	华南师范大学
主分类号：	G06F40/289	分类号：	G06F40/289;G06F16/35;G06Q30/02
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	江裕强
地址：	510006 广东省广州市番禺区***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于三部聚类分析监督评论情感分析方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于三部图和聚类分析的半监督电商评论情感分析方法，其特征在于包括：

(S1)基于词向量并结合情感词典和词性信息计算词语相似度；

(S2)引入词组模式以增添上下文信息，消除一词多义现象的影响；

(S3)建立以文档为中心的词-文档-词组三部图，并计算文档之间相似度；具体包括：

(1)基于近义词模式和词组模式，首先构建词-文档二部图；首先根据输入的词文档，统计词文档的数据记为n，并对所有词文档进行数据预处理，然后统计词文档中词语个数m和每个词语出现的频率tf_k，其中，k表示第k个词语，将所有词语按照频率降序的排列方式进行排序，并用词语的序号no_k为每个词语编号，将词文档转化成n条以编号表示的评论集合D_1；

(2)为词文档加入近义词模式：将词文档中m个词语构建特征词典V，对于D_1通过相似度计算方法得到每个词w_k与V中m个词的相似度，其中k∈{1,2,...,m}，对于满足相似度阈值参数β∈(0,1)的词，将其追加到原语句对应词语w_k的后面，得到扩充语料D_2；

(3)加入词组模式：对于D_1中的每一条评论，将其中存在相邻关系的两个词语进行拼接，得到二元词组(Bigram)，将词组追加到D_2中对应的评论后面，得到进一步扩充的语料D_3；另外，为了控制词组模式的数量，去掉只出现1次的词组，共计得到l个词组模式；

(4)基于(3)得到的D_3构建以词文档为中心的词语-文档-词组三部图，图的构建主要以文档为中心，第a个词文档d_a中包含词语w_k，则有文档d_a向词语w_k的转移关系；而词语w_k能被多个词文档含有，于是词语w_k能向其他词文档转移；而其他词文档中的词语和剩余词文档也有相同的转移关系，可以构建文档到词组的转移关系；

(5)基于步骤(4)得到三部图，计算第a个文档到第b个文档的转移概率T_ab，计算公式如下所示：

其中，a,b均表示第a,b个文档，a,b∈{1,2,...,n}，n是词文档数目，k,k',q,q'均表示对应的文档中词语的序号标签，其中，k∈{1,...,m}；k',q'∈{1,...,m,m+1,...,m+l}；q∈{1,...,l}，其中tf_ak表示在第a个文档中第k个词语出现的频率，以此类推；

(6)基于步骤(5)可以计算得到每个文档基于三部图转移到其他各文档的转移概率矩阵G_1，其中，G_1的每一行或者每一列表示该文档到其他所有文档的转移概率向量；

(S4)基于样本聚类假设，充分挖掘数据集中的簇结构分布，得到数据集的全局信息；

(S5)将数据集的全局信息与三部图中的相似度信息进行加权融合，获得最终样本的关系图T_F；

(S6)根据关系图T_F执行标签传播算法，将有标注样本的标签传播给未标注样本，实现未标注样本的情感分类。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华南师范大学，未经华南师范大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811386819.0/1.html，转载请声明来源钻瓜专利网。

上一篇：基于主题模型和粗糙集的K-means文本聚类方法
下一篇：写作辅助方法、装置及存储介质、计算机设备

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于三部图和聚类分析的半监督电商评论情感分析方法有效

专利文献下载