[发明专利]一种基于层次化AP聚类的商品评论数据标签化系统和方法有效
申请号: | 201710678136.1 | 申请日: | 2017-08-09 |
公开(公告)号: | CN107633007B | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 彭敏晶;张朕轩;唐晨馨;李运蒙 | 申请(专利权)人: | 五邑大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9535;G06F40/289;G06K9/62;G06Q30/02 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 梁嘉琦 |
地址: | 529000 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 层次 ap 商品 评论 数据 标签 系统 方法 | ||
本发明提供了一种基于层次化AP聚类的商品评论数据标签化系统,包括数据抓取模块、词向量训练模块、特征信息抽取模块、特征信息标签化模块;数据抓取模块对语料信息和评论数据进行存储;词向量训练模块得到训练语料集;特征信息抽取模块得到评论数据对应的特征信息集合;特征信息标签化模块得到聚类后的评论数据标签化结果。本发明的有益效果为:提供了一种基于层次化AP聚类的商品评论数据标签化的系统和方法,达到了自动完成评论数据标签化的目的,并且可以挖掘这些特征信息的价值取向,以标签的形式展现给商家和客户,为后续的数据分析提供支持,也可以为企业和消费者提供一个方便、科学、直观地获取有用评论信息的工具。
技术领域
本发明涉及计算机数据处理和数据挖掘领域,尤其是一种基于层次化AP聚类的商品评论数据标签化系统及方法。
背景技术
近年来,电子商务的蓬勃发展使得越来越多的人选择网上购物的消费方式,消费模式的转变也给企业和商家带来了新的机遇和挑战。在网上购物这个虚拟的环境下,大量的研究及调查结果显示,在线评论是消费者做出购买决策的最主要因素,同时在线评论作为反馈数据也能帮助企业提升产品、了解用户需求、提升竞争力和口碑。尼尔森2014年上半年调查数据显示,70%-80%的消费者会查看商品评价以作为购买的抉择重要参考信息,由此可以推知评论信息对客户购买决策的影响力,评论中体现的产品质量、外观、售后等信息都是客户在网络上购买商品的重要衡量指标。
评论数据能够给企业提供一个最直接的了解商品使用等相关数据的信息来源,也能从中了解不同用户的偏好,把握整体用户对商品特性的期望,预测用户需求,甚至可以从中了解不同企业在相近产品方面的优缺点、与自己产品特性的对比,分析产品的优势和不足。
但是大数据时代的到来使得评论数据量飞速增长,加上评论数据本身具有不规范性、冗余性等特征,使得有用的评论信息难以获取。电子商务网站的评论数量正在呈几何级增长的趋势,而且这些评论风格各异,语言结构无标准模式可循...面对庞大的评论数量,仅仅依靠人工分析与处理来挖掘用户评论,是费时又低效的。
在各大电子商务网站如京东、淘宝、一号店中已经对用户的评论做了一些归类,通过标签的分类为客户的查询提供更加直观和便捷的体验,但是不足之处在于:这些标签由商家预先设定,大部分为正面标签,不能完全地反映出客户对商品的评价;另外,标签由评论用户自行选择,但是通过统计数据可以发现,只有10%左右的评论用户愿意为评论打上标签,而有90%的评论数据是没有标签信息的,导致无法充分地利用每一个评论所隐含的评价取向。整体来说,现实应用中的评论标签化技术还处于人工化阶段,大量价值丰富的评论信息没有被充分利用。
发明内容
针对现有技术的不足,本发明提供了一种基于层次化AP聚类的商品评论数据标签化的系统和方法,达到自动完成评论数据标签化的目的,可以挖掘这些特征信息的价值取向,以标签的形式展现给商家和客户,为后续的数据分析提供支持,也可以为企业和消费者提供一个方便、科学、直观地获取有用评论信息的工具。
为了实现上述目的,本发明采用以下的技术方案:
本发明提供了一种基于层次化AP聚类的商品评论数据标签化系统,包括数据抓取模块、词向量训练模块、特征信息抽取模块、特征信息标签化模块。数据抓取模块,从相关电商网站获取目标商品的评论数据,从评论数据中抽取语料信息,对语料信息和评论数据进行存储;词向量训练模块,对数据抓取模块获得语料信息进行分词处理和去噪整合,得到训练语料集;特征信息抽取模块,确定不同词性的权重赋值,确定种子词典,根据词和种子词典的相关性特征确定词性和种子词典的权重赋值,根据特征信息属性值抽取算法可以基于词性和种子词典得到评论数据的属性值,将属性值的抽取结果用于词性及依存句法模板抽取模型,得到特征信息抽取模板,将特征信息抽取模板通过特征信息抽取算法运算得到评论数据对应的特征信息集合;特征信息标签化模块,将通过特征信息抽取模块抽取的特征信息转换为向量表现形式,使用k-means聚类方法对特征词语向量进行一次聚类,对一次聚类后各分类中的特征词语使用AP聚类模型进行二次聚类,得到聚类后的评论数据标签化结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于五邑大学,未经五邑大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710678136.1/2.html,转载请声明来源钻瓜专利网。