[发明专利]一种基于用户评论的商品属性聚类方法有效

申请号：	201410020517.7	申请日：	2014-01-16
公开（公告）号：	CN103778214B	公开（公告）日：	2017-08-01
发明（设计）人：	闫波;张也;宿红毅;郑宏	申请（专利权）人：	北京理工大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06Q30/02
代理公司：	北京理工正阳知识产权代理事务所(普通合伙)11639	代理人：	唐华
地址：	100081 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及基于用户评论的商品属性聚类方法，属于数据挖掘领域。本发明结合用户评论信息以及商品属性信息，对特征类似的商品，根据用户评价计算属性的好评率，将其作为权值计算商品的相似性，再将商品排序，为用户返回包含真实信息的所需商品。能直接筛选出在用户关心的商品属性中，最真实好评的商品，不仅节省了选购商品的时间，也提高了用户的购物体验。
搜索关键词：	一种基于用户评论商品属性方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于用户评论的商品属性聚类方法，其特征在于：步骤一、收集商品的属性信息以及用户对该商品的评论信息；步骤二、对商品的评论信息进行预处理；对商品的评论信息进行预处理过程为：(1)对商品的评论信息先去除垃圾评论；(2)对评论进行分词、词性标注，将评论划分为词条；(3)构建以名词短语和形容词短语为基础搭配的语法模式，抽取出显示评价对象及评价词，获取搭配集合M{评价对象，评价词}；(4)抽取隐式评价对象，手工构建映射集，若在词句的切分中，搭配集合M{评价对象，评价词}左侧没有发现名词，则搜索构建的映射集合，若搜到隐式评价指示词，将隐式评价指示词映射到相应的评价对象上，以此获取隐式评价对象；(5)做极性判断，将极性强度分为两种：好和差，删除中性的评价，利用Hownet计算词汇倾向性，以Hownet提供的正负面评价词语作为基准词，判别待定词与基准词在Hownet中是否为同义词，计算出词汇的倾向性，计算公式如下：sim(d,c)=Σs=1mwds×wcs(Σs=1mwds2)(Σs=1mwcs2)]]>其中sim(d,c)表示文本d和类别c之间的相似度，wds表示文本d的第s个特征权重，wcs表示类别c的第s个特征权重，m为特征权重的总数；(6)以提取的商品属性构建商品属性词典，将提取出的类似产品属性作为商品属性树某一分支的叶子节点，每一分支的根节点由规范化的属性表示；将搭配集合M中的评价对象与商品属性树的叶子节点做对比，将该评价对象由相似叶子节点的根节点代替，以规范搭配集合M{商品属性，评价词}；步骤三、计算搭配集合M中商品属性fi与极性为好的评价词O的联合概率p(fi,O)，以及商品属性fi单独出现的概率p(fi)，计算商品属性fi的权值：w(fi)=log2p(fi,0)p(fi)]]>对于评论中没有出现的商品属性，权值为0；步骤四、基于步骤三计算得出的商品属性权值，使用向量空间模型来处理，利用K‑Means算法对商品属性相同的所有商品进行聚类：步骤五、计算出每个聚类内商品的每个属性的好评率均值为：C(fi)=Σj=1nlog2p(fij,0)p(fij)n]]>其中n为每一个聚类内商品数量，C(fi)为当前计算的属性在该聚类内的均值，为聚类内商品j的商品属性fi的权值，根据用户所关注的商品属性，将属性均值最高的一簇内商品随机推荐给用户；若用户关注的属性有f1...fk个，则取C(f1)×...×C(fk)值最大的一簇，对聚类内的商品随机进行推荐。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京理工大学，未经北京理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201410020517.7/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于用户评论的商品属性聚类方法有效

专利文献下载