[发明专利]一种针对商品评论的情感词典自动构建方法有效
| 申请号: | 201810539447.4 | 申请日: | 2018-05-30 |
| 公开(公告)号: | CN108763214B | 公开(公告)日: | 2021-09-24 |
| 发明(设计)人: | 冯钧;贡诚;李晓东;邹希 | 申请(专利权)人: | 河海大学 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06Q30/02 |
| 代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 李玉平 |
| 地址: | 211100 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 针对 商品 评论 情感 词典 自动 构建 方法 | ||
1.一种针对商品评论的情感词典自动构建方法,其特征在于,依次包括以下步骤:
(1)对原始的商品评论文本进行预处理,确定指定领域文本所包含的情感词和评价对象;
(2)挖掘步骤(1)得到的情感词和评价对象之间的关系,生成表示这种关系的情感矩阵;
(3)对步骤(1)得到的评价对象进行筛选,留下关键的评价对象;
(4)考虑情感词和关键评价对象之间的关系,生成表示这二者之间关系的情感矩阵;
(5)挖掘步骤(3)所筛选的关键评价对象和步骤(1)得到的原始的评价对象之间的相关性,并生成表示二者之间相关性的相关矩阵;
(6)利用步骤(2),(4)得到的两个情感矩阵和步骤(5)得到相关矩阵,生成一个新的情感矩阵用来表示情感词和关键评价对象之间的关系;
(7)根据情感词在步骤(6)的情感矩阵之间的距离,对情感词进行聚类,将情感词划分为几类,得到领域情感词典;
(8)将情感词典应用到情感分类任务中,根据不同的领域采取交叉检验等方法确定一个最优的k值,将情感词划分为k类;
所述步骤(2)中,情感词和评价对象之间的关系直接反映的是情感词对评价对象的一种修饰程度:
(2.1)用情感词和评价对象之间的共现来量化二者的关系,这里采用了PMI来计算情感词和评价对象之间的关系;
PMI计算公式的定义如下:
其中,p(word1,word2)是word1和word2两个单词在商品评论文本中同一个窗口共现的概率;N是所考虑的商品评论包含的不同单词的个数;count(word1,word2)指word1和word2两个单词在商品评论中同一个窗口中共现的次数,count(word)是指在商品评论文本中单词word出现的次数;
(2.2)我们用一个矩阵(情感矩阵)来表示这种关系,矩阵的行表示所有的情感词,矩阵的每一列则是评价对象,而矩阵的每一个单元表示所对应的情感词和评价对象的PMI值;
情感词和评价对象之间的情感矩阵定义为矩阵A如下所示:
构成的情感矩阵A为n行p列构成;其中n行表示n个情感词即e1~en,p列表示p个评价对象即m1~mp;而wij代表情感词ei和评价对象mj之间的PMI值,wij=PMI(ei,mj)。
2.如权利要求1所述的针对商品评论的情感词典自动构建方法,其特征在于,步骤(1)中,情感词和评价对象的确定是根据单词的词性,选取评论文本中所包含的名词作为评价对象,而评论文本中的形容词、副词、动词则作为情感词。
3.如权利要求1所述的针对商品评论的情感词典自动构建方法,其特征在于,所述步骤(3)中,对评价对象的筛选借鉴的是tf-idf思想,具体包括以下细节:
(3.1)把同一类产品的评论合并成文档,根据单词在不同的文档中出现的次数,和逆向文档频率来计算单词的tf-idf值;
(3.2)计算所有的单词的tf-idf值,并对评价对象的tf-idf值进行排序,并设置一个阈值,只有达到这个阈值的t个评价对象才被筛选出来认为是最终的评价对象。
4.如权利要求1所述的针对商品评论的情感词典自动构建方法,其特征在于,所述步骤(4)中,类似于步骤(2)中的构建的情感矩阵,唯一的区别在于,在步骤(4)中情感矩阵包含的是情感词和经过筛选之后留下的评价对象之间的关系,而并非是情感词和全部评价对象之间的关系;
所构建的情感矩阵B为n行t列;n行表示n个情感词,t列表示t个关键评价对象;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810539447.4/1.html,转载请声明来源钻瓜专利网。





