[发明专利]基于三部图和聚类分析的半监督电商评论情感分析方法有效
申请号: | 201811386819.0 | 申请日: | 2018-11-20 |
公开(公告)号: | CN109670039B | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 卢昕;薛云;吴海明 | 申请(专利权)人: | 华南师范大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/35;G06Q30/02 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 江裕强 |
地址: | 510006 广东省广州市番禺区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 三部 聚类分析 监督 评论 情感 分析 方法 | ||
1.基于三部图和聚类分析的半监督电商评论情感分析方法,其特征在于包括:
(S1)基于词向量并结合情感词典和词性信息计算词语相似度;
(S2)引入词组模式以增添上下文信息,消除一词多义现象的影响;
(S3)建立以文档为中心的词-文档-词组三部图,并计算文档之间相似度;具体包括:
(1)基于近义词模式和词组模式,首先构建词-文档二部图;首先根据输入的词文档,统计词文档的数据记为n,并对所有词文档进行数据预处理,然后统计词文档中词语个数m和每个词语出现的频率tfk,其中,k表示第k个词语,将所有词语按照频率降序的排列方式进行排序,并用词语的序号nok为每个词语编号,将词文档转化成n条以编号表示的评论集合D_1;
(2)为词文档加入近义词模式:将词文档中m个词语构建特征词典V,对于D_1通过相似度计算方法得到每个词wk与V中m个词的相似度,其中k∈{1,2,...,m},对于满足相似度阈值参数β∈(0,1)的词,将其追加到原语句对应词语wk的后面,得到扩充语料D_2;
(3)加入词组模式:对于D_1中的每一条评论,将其中存在相邻关系的两个词语进行拼接,得到二元词组(Bigram),将词组追加到D_2中对应的评论后面,得到进一步扩充的语料D_3;另外,为了控制词组模式的数量,去掉只出现1次的词组,共计得到l个词组模式;
(4)基于(3)得到的D_3构建以词文档为中心的词语-文档-词组三部图,图的构建主要以文档为中心,第a个词文档da中包含词语wk,则有文档da向词语wk的转移关系;而词语wk能被多个词文档含有,于是词语wk能向其他词文档转移;而其他词文档中的词语和剩余词文档也有相同的转移关系,可以构建文档到词组的转移关系;
(5)基于步骤(4)得到三部图,计算第a个文档到第b个文档的转移概率Tab,计算公式如下所示:
其中,a,b均表示第a,b个文档,a,b∈{1,2,...,n},n是词文档数目,k,k',q,q'均表示对应的文档中词语的序号标签,其中,k∈{1,...,m};k',q'∈{1,...,m,m+1,...,m+l};q∈{1,...,l},其中tfak表示在第a个文档中第k个词语出现的频率,以此类推;
(6)基于步骤(5)可以计算得到每个文档基于三部图转移到其他各文档的转移概率矩阵G_1,其中,G_1的每一行或者每一列表示该文档到其他所有文档的转移概率向量;
(S4)基于样本聚类假设,充分挖掘数据集中的簇结构分布,得到数据集的全局信息;
(S5)将数据集的全局信息与三部图中的相似度信息进行加权融合,获得最终样本的关系图TF;
(S6)根据关系图TF执行标签传播算法,将有标注样本的标签传播给未标注样本,实现未标注样本的情感分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学,未经华南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811386819.0/1.html,转载请声明来源钻瓜专利网。