[发明专利]一种基于大数据文本挖掘的商品质量情感词典构建系统在审
申请号: | 201610097347.1 | 申请日: | 2016-02-23 |
公开(公告)号: | CN105760502A | 公开(公告)日: | 2016-07-13 |
发明(设计)人: | 李华康;钟鑫;杨天若;杨天楚 | 申请(专利权)人: | 常州普适信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 213022 江苏省常州市新北区*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 文本 挖掘 商品 质量 情感 词典 构建 系统 | ||
技术领域
本发明涉及一种电商质量情感词典的构建系统,特别涉及一种基于大数据文本挖掘技术的情感词典构建系统。
背景技术
电子商务代表着未来贸易模式的发展方向,它的应用和推广给中国的经济发展及社会进步带来了巨大的效益。从二十世纪九十年代开始电子商务的发展离不开互联网的发展,截止2001年1月,我国电子商务网站数量已经到达1500余家。2015年中国移动市场规模超过3500亿元,用户规模超过5.2亿人。中国的电子商务逐渐形成多种趋势,包括:移动购物、平台化、电子商务向三四五线城市渗透、物联网、社交购物、O2O、云服务和电子商务解决方案、大数据的应用、精准化营销和个性化服务、互联网金融。
由于网络所具有的先对高度互动性、匿名性、便利性、时效性和开放性等特征,越来越多的消费者在电商购买消费品之后会通过在线评价系统发表自己对商品、物流的评价,自己使用情况以及各方面的情感。据2005年美国KRC研究所在线调研结果显示,网络购物者在线搜索、评价产品时,其他消费者对产品的评价和使用时的心得,很大的影响了他们的购买决策。据CNNIC在2009年发布的报告显示,在线商品评论是我国消费者购买决策的重要信息来源之一。市场调研公司尼尔森在2012年的报告显示,70%的消费者表示他们信任在线产品评价。
消费决策制定包括以下几个阶段:问题识别、信息搜索、决策制定、购后评估。郝媛媛在《在线评论对消费者感知与购买行为影响的实证研究》中将定性分析和定量分析相结合对消费者感知与购买行为影响进行研究,文本情感趋于正面的评价可能会缺乏有用性的投票,从而影响消费者购买决策。王孟萍在《在线评论对消费者购买意愿的影响研究》中指出含有情感线索的在线评论对信息受众的购买意愿更大,情感线索会让网民产生更加强烈的移情反应,并且信息受众的移情反应有显著地影响信息受众的消费意愿,从而导致不同的消费决策。
很多社交媒体和文本分析研究者通过算法的方式处理情感分类问题。严馨等人在“一种基于微博的新词情感倾向判定方法”[CN201510485811.X]中通过中文分词工具对微博语料进行分词,通过去停用词后采用B-Gram算法统计词频获得新词集,然后再用知网的情感词典计算出新词集中各词的情感分布,通过构建线性分类器得到新词的情感倾向。严勤等人在“一种应用于金融Web领域的文本情感倾向分析方法”[CN201510406228.5]中,根据Web金融文本特点构建金融情感词典,设计了无关信息清理算法和Web金融文本情感倾向分类算法进行Web文本情感倾向分类。彭德中等人在“一种基于SO-PMI商品评价信息的情感分析方法”[CN201510383251.7]中,在情感词典的基础上,以每条评价语句S为单位,以该语句中的每个情感词WS为分隔符,对两个分隔符之间的断句phrase进行情感权值计算,然后将每个断句的权值求和得出S的总体情感倾向值,实现对评价语句的情感分类。徐华等人在“基于用户评论文本的上下文情感分类方法及分类系统”[CN201510203118.9]采用以下步骤实现评论情感分类:获取多条用户评论文本;对多条用户评论进行分词;对分词后的多条用户评论文本进行训练,以得到候选特征集;从候选特征集中根据上下文结构特征提取有效特征,以得到训练集;根据训练集分类模型,通过分类对用户评论文本进行情感分类。
综上所述,消费者的消费决策很多程度上取决于其他消费者的评价情感词,而基于自然语言的消费评论很多是基于一个现有的情感词库来实现的。原来越来越多的网络专业用语以新的风格出现在不断增长变化的电商消费平台上,简单的人工构建的网络情感词典已经无法满足网络信息挖掘的需求。于此同时,电商评价中部分是用户个人对商品使用情况的评定,具有很大的个体客观性,对商品的设计和研发具有一定的指导意义,但是在其他消费者的购买指导方面并没有太多的参考价值。而本发明就是解决了商品质量情感词典的自动构建以及商品的基本属性评价和个人使用评价的分离问题。
发明内容
本发明的目的在于提供一种基于电商平台评价语料库的电商商品质量情感极性词典和程度词典的自动抽取、更新方法,将消费者对商品评价中的商品属性描述和个人使用状况描述相分离,为更多的消费者提供简洁、客观的产品质量评估结果,完善基于商品评论的在线消费决策机制。
本发明系统解决其技术问题所采取的技术方案是:一种基于大数据的词典构建方法,该方法包括一个原始语料数据库、一个三元组抽取模块、一个第三方词典库、一个简单的人工标定模块、一个机器学习模块、以及最终的极性词典和程度词典。
原始语料数据库:通过爬虫软件获得原始电商评价语料库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于常州普适信息科技有限公司,未经常州普适信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610097347.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置