[发明专利]一种针对商品评价进行聚类分析的方法在审
申请号: | 201811332419.1 | 申请日: | 2018-11-09 |
公开(公告)号: | CN109543035A | 公开(公告)日: | 2019-03-29 |
发明(设计)人: | 郑志军;程国艮 | 申请(专利权)人: | 中译语通科技股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27;G06Q30/02 |
代理公司: | 北京中誉威圣知识产权代理有限公司 11279 | 代理人: | 蒋常雪 |
地址: | 100040 北京市石*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关注点 语义 聚类分析 分句 句子 句子挑选 密度聚类 情感分类 数据用户 预先定义 词抽取 细粒度 语料 查询 局限 客户 购买 | ||
本发明提供了一种针对商品评价进行聚类分析的方法,具体而言,该方法包括:根据用户提出的关注点,将商品评价语料中语义最接近的特定个数词抽取出来;对商品的所有评价进行分句处理,并将这些分句中含有所述与关注点语义接近关键词的句子挑选出来;对这些句子进行情感分类,然后对挑选出来的句子进行密度聚类处理,从而可以从更细粒度的角度便于潜在购买客户了解该商品的特定功能。由于该方法不预先定义数据用户可能的关注点,使得用户的查询不再受局限,更好地满足用户的需求。
技术领域
本发明涉及商品评价计算分析领域,具体而言,涉及一种利用某种商品的客户购买评价进行聚类分析的方法。
背景技术
据CNNIC(中国互联网络信息中心)发布的2018年第42次中国互联网络发展状况统计报告显示,截止2018年6月,我国网络购物用户规模达到了5.69亿,相较于2017年末增长了6.7%,占网民总体比例达到了71.0%。2018年上半年,我国网上零售交易额达到40810亿,同比增长30.1%,继续保持了稳健增长势头。大量的网购产生了庞大的用户评价,能否合理利用这些评价数据对促进网上交易具有重要意义。
目前,针对数据用户的关注点(例如“服务态度”“品牌效应”等)主
要有两种数据挖掘方式:一种是基于深度学习的方法,即将每条商品评价分类到事先定义好的类别中;一种是非深度学习的方法,即将基于关键词和情感词典抽取出的评价进行聚类。
基于神经网络挖掘数据,这种方法需要人工花费大量的时间和精力去标记语料,难以在实际中应用。
将基于关键词和情感词典抽取出的评价进行聚类以挖掘数据,这种方法缺陷主要在于:文本聚类的过程中使用SVM模型表示的句子存在数据稀疏、句子表示过长且没有考虑词汇的语义信息的问题。
更重要的是,上述两种方法一般需要事先定义一些数据用户可能的关注点,而这会限制了查询功能。
发明内容
本发明的目的在于提供一种利用某种商品的客户购买评价进行聚类分析的方法,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
本发明是这样实现的:不事先固定数据用户的关注点,而是由数据用户自己提出想要查询的内容。将用户关心的要素(以词的形式提出)拓展成一个大的关键词集合,然后将评价中有关键词的句子都抽取出来并进行情感分类,最后基于不同的分类结果进行聚类,聚类的结果即买家对于商品在数据用户关注点上更细粒度的看法。
本发明提供一种针对商品评价进行聚类分析的方法,其特征在于,该方法包括如下步骤:
根据用户的关注点kw0从评价语料中抽取语义最接近的l个词形成关键词集合KW;其中,l为大于1的自然数;
对商品的所有评价进行分句处理,得到商品评价集合S;
将S中含有关键词集合KW中元素的句子挑选出来组成集合Sk;
利用正向情感词词典和负向情感词词典将集合Sk分为包含正向情感的商品评价集合Poss和包含负向情感的商品评价集合Negs;
对所述集合Poss和所述集合Negs分别进行密度聚类处理,得到更细粒度的买家对商品的具体态度。
优选地,所述关键词集合KW可表示为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中译语通科技股份有限公司,未经中译语通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811332419.1/2.html,转载请声明来源钻瓜专利网。