[发明专利]一种针对商品评论的情感词典自动构建方法有效
| 申请号: | 201810539447.4 | 申请日: | 2018-05-30 |
| 公开(公告)号: | CN108763214B | 公开(公告)日: | 2021-09-24 |
| 发明(设计)人: | 冯钧;贡诚;李晓东;邹希 | 申请(专利权)人: | 河海大学 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06Q30/02 |
| 代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 李玉平 |
| 地址: | 211100 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 针对 商品 评论 情感 词典 自动 构建 方法 | ||
本发明公开了一种针对商品评论的情感词典自动构建方法,包含文本预处理、语义关系挖掘、情感词聚类。文本预处理用于对商品评论进行预处理,提取某一类商品评论中所包含的情感词和评价对象。语义关系挖掘,挖掘情感词和评价对象之间的语义关系,并用矩阵的形式来表示情感词和评价对象之间的语义关系。情感词聚类,根据情感词在情感矩阵空间内的相互距离,对情感词进行无监督的聚类可以将情感词合理的分为k类。本发明针对商品评论领域文本的特点,构建了领域情感词典,该词典可以将情感词分为多类而不是传统的褒贬两大类,对于商品评论领域,领域情感词典与其他现行的通用情感词典相比在情感分类任务等方面具有巨大的优势。
技术领域
本发明涉及一种针对商品评论领域的情感词典自定构建方法,属于计算机信息技术处理技术领域。
背景技术
随着各种购物网站的发展,大量的关于各类商品的评论出现在了网络上,人们可以随时随地的查阅这些评论。而识别这些评论所蕴含的情感倾向,无论是对商家还是消费者都十分重要。而一个良好的情感词典是对文本进行情感倾向分析的基础。众所周知,对文本进行情感分析需要考虑文本所属的行业领域。而现存的情感词典都是通用的,并没有针对商品评论这一指定领域的情感词典。显然,利用传统的情感词典来对商品评论文本进行情感分析是不合适的。因此情感词典的自动构建方法,尤其是针对特定领域的情感词典,引起了越来越多的专家学者关注和研究。
现有的情感词典构建方法,对于中文和英文来说,都可以划分为基于语料和基于知识库两大类。而基于语料库来构建情感词典,最常见的方法就是选取种子词,并通过计算未知情感极性的情感词和种子词之间的关系即PMI值来确定情感词的情感极性。然后中文可以利用的常识知识库十分有限,所以利用知识库来构建中文情感词典的研究还很少。而在构建针对商品评论领域的情感词典时,需要特别考虑评价对象。评价对象是我们所评价的商品的某一特征,如对于手机来说,评价对象可以是手机的屏幕,电池等特征。
另一方面,现有的情感词典通常只是包含一些情感词,并将这些情感词按照褒义词、贬义词两大类进行划分。也有一些学者将情感划分为喜悦,悲伤,恐惧,惊讶,生气,嫉妒六大类。总而言之,现有的情感分类都是基于人的经验知识,确定情感词可划分的情感类别。
考虑到许多情感词在不同的领域常常会表现出不同的情感倾向,因此能够准确的识别出这些情感词和评价对象或者说是领域的主题显得十分重要,尤其是在商品评论的领域。Fast发现采取资讯专家或者采用众包服务的方式来构建领域情感词典是十分困难的。Shi等人利用关联规则算法并结合有监督的机器学习方式来抽取领域文本中关键的信息。Zhang等人将点互信息(PMI)和关联规则算法来抽取产品的评价对象。考虑到评价对象的顺序问题,Qiu等在计算情感词和产品他正间关系的基础上提出了一种双向传播算法。Mishne则利用单词的词性和词频来选取评价对象。
PMI是用来考虑两个单词之间关联程度的一个常用指标。Turney和Littman使用PMI和LSA来计算两个单词之间的关联程度,这种利用PMI来计算单词和种子词之间关系的方法通常被称为so-pmi.Yang等在so-pmi的基础上结合了用户的行为习惯,提出了一种新的构建情感词典的方法。Islam和Inkpen则对PMI进行了改进,提出了SOC-PMI.情感分类任务是情感分析的一个基础任务,分类结果的好坏可以直接反应出所用情感词典的性能。Pang把情感分类任务当作一种文本分类任务,并对朴素贝叶斯,支持向量机和最大熵三种分类器进行了测试。Li和Hao则利用谱聚类的方法对评价对象进行了扩展。Yang等人则利用word2vec来计算单词和种子词之间的余弦相似性。
现有的情感词典构建方法多是针对通用的词典,而这些通用的词典并不是很能适合分析特定领域的文本,例如商品评论文本,因此构建一个能够适合特定领域情感词典就显得十分重要。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810539447.4/2.html,转载请声明来源钻瓜专利网。





