[发明专利]图书评论挖掘系统及方法在审

专利信息
申请号: 201711101195.9 申请日: 2017-11-07
公开(公告)号: CN108090121A 公开(公告)日: 2018-05-29
发明(设计)人: 郝文静;原帅;张涛;吕灼恒;张晋锋 申请(专利权)人: 曙光信息产业(北京)有限公司
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 北京德恒律治知识产权代理有限公司 11409 代理人: 章社杲;卢军峰
地址: 100193 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 评论 原始语料库 产品特征 挖掘系统 准确度 原始数据 整体极性 挖掘 数据库 预处理 抓取 结果数据库 预处理模块 大型网站 极性分析 评论信息 清洗模块 情感分析 数据获取 特征提取 冗余词 特征词 分类 分词 匹配 替换 清洗 分析
【说明书】:

发明提供了一种图书评论挖掘系统和方法。图书评论挖掘系统包括:数据获取及清洗模块,用于从大型网站上抓取评论信息的原始数据并对所述原始数据进行清洗,以形成评论的原始语料库;预处理模块,对所述原始语料库进行分词和冗余词匹配替换的预处理;特征提取及挖掘模块,用于从所述原始语料库中提取产品特征并且对所述产品特征进行挖掘,以获得出现频率高的评论特征词的数据库;以及评论极性分析模块,用于对所述评论的数据库进行分类以获得具有整体极性分类的结果数据库。提高了产品特征挖掘准确度,并且对转义复句进行整体极性分析,而不是对各个转义词进行分析,因此,即使评论中大量出现转义词,也不会降低情感分析的准确度。

技术领域

本发明一般地涉及计算机技术领域,更具体地,涉及评论挖掘系统及方法。

背景技术

随着B2C(即,Business-to-Customer的缩写,而其中文简称为“商对客”。“商对客”是电子商务的一种模式,也就是通常说的直接面向消费者销售产品和服务商业零售模式)、C2C(即,Consumer to Consumer实际是电子商务的专业用语,是个人与个人之间的电子商务)网上商城快速发展,商品的在线评论数量迅速增加.在线评论蕴含着丰富的产品意见信息,不仅能够影响消费者购买商品的倾向,更影响了产品的销量。

针对大量的图书评论而言,对其进行数据挖掘,可以帮助消费者在海量信息源中迅速找到真正需要的信息,以最简单直接的手段将评论挖掘结果反馈给商家和消费者。这样既可以帮助商家了解用户最感兴趣的图书产品特征,从而进行改进,又可以帮助用户在购买某种图书之前深入了解该图书的购买者关于购买过程及图书的体验,并可对同类图书进行比对,挑选出适合自己的图书,从而增强消费者的购买行为的科学性。

为了解决上述问题,研究者开始考虑使用自动化的、数据挖掘的方式对网上图书评论进行分析。图书评论挖掘过程主要包含两个方面:一个是产品特征提取,另一个是评论情感分析。目前,评论挖掘技术被越来越多的研究者进行研究探索,但评论挖掘平台的建设还不太成熟,目前还没有专用的图书评论挖掘平台。

评论挖掘技术在英文领域已进行了多年的研究,有了一定的技术基础,但由于中文与英文的差异,英文领域的研究成果无法直接适用于中文领域。现有的评论挖掘系统使用的技术仍然有许多问题等待研究解决。现有技术在提取产品特征时使用了性能较好的FP-growth(Frequent Pattern Tree,又称频繁模式树)算法。FP-tree是一种特殊的前缀树,由频繁项头表和项前缀树构成。FP-Growth算法基于以上的结构加快整个挖掘过程。但该方法研究结果有大量的冗余数据,产品特征挖掘结果准确度不高。

而针对情感分析而言,现有技术中通过WordNet的同义词与反义词关系,获得情感词的情感倾向,其中,WordNet是由Princeton大学的心理学家,语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。它不是光把单词以字母顺序排列,而且按照单词的意义组成一个“单词的网络”。然后根据句子中情感倾向占优势的情感词类进行句子极性的判断,但其未考虑评论中会出现大量转义词,以至于准确度较低。

发明内容

现有技术中存在产品特征挖掘准确度不高以及如果评论中出现大量转义词,则会降低情感分析的准确度。为了解决这些问题,本发明提供了一种能够解决上述技术问题的评论挖掘系统。

根据本发明的一方面,提供了一种图书评论挖掘系统,包括:数据获取及清洗模块,用于从大型网站上抓取评论信息的原始数据并对原始数据进行清洗,以形成评论的原始语料库;预处理模块,对原始语料库进行分词和冗余词匹配替换的预处理;特征提取及挖掘模块,用于从原始语料库中提取产品特征并且对产品特征进行挖掘,以获得出现频率高的评论特征词的数据库;以及评论极性分析模块,用于对评论的数据库进行分类以获得具有整体极性分类的结果数据库。

优选地,预处理模块进一步包括冗余词表匹配替换子模块,用于对原始评论与冗余词汇表进行比较并根据比较结果进行冗余词替换。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于曙光信息产业(北京)有限公司,未经曙光信息产业(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711101195.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top