[发明专利]计算商品相似度的方法和装置在审
申请号: | 201710984891.2 | 申请日: | 2017-10-20 |
公开(公告)号: | CN109697641A | 公开(公告)日: | 2019-04-30 |
发明(设计)人: | 李陈程;程苏珺;于海 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06Q30/06 | 分类号: | G06Q30/06 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 张一军;杨晓伟 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 商品向量 相似度 方法和装置 特征词 计算机技术领域 哈希算法 计算效率 商品特征 向量构建 候选集 准确率 向量 筛选 学习 | ||
本发明实施例公开了一种计算商品相似度的方法和装置,涉及计算机技术领域。其中,该方法包括:将商品特征数据输入深度学习模型,以训练得到特征词向量;基于多个特征词向量构建商品向量;根据哈希算法筛选所述商品向量的相似商品候选集;计算所述商品向量与其相似商品候选集中的商品向量的相似度。通过以上步骤,能够使计算出的相似商品符合高层次的“相像”,提高商品相似度的计算准确率和计算效率。
技术领域
本发明涉及计算机技术领域,尤其涉及一种计算商品相似度的方法和装置。
背景技术
随着互联网的迅猛发展,网上购物越来越普遍。为便于用户快速找到称心如意的商品,购物网站通常会向用户提供个性化的商品推荐服务。在一些商品推荐方法中,是根据用户的浏览或购买记录推荐相似商品。为推荐相似商品,需要计算每个商品的相似商品集合。
现有技术是基于Bag of Words(词袋)方法计算商品相似度,其主要依靠商品的标签、属性等特征。考虑到动辄数十亿的商品数据规模,两两计算全量数据会耗费巨大的计算资源,且计算时间高达几万小时,计算效率让人无法接受。为了减少计算量,现有技术在计算商品相似度时,对商品的价格区间进行了限制,即只计算相邻价格区间的商品的相似度。并且,在计算商品相似度时依靠Hive SQL(一种基于Hadoop的数据仓库工具)进行分布式计算。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
第一、由于商品中的特征数量少,因此,传统计算文本相似度的Bag of Words方法不能理解商品的深层语义信息,计算出的相似商品往往不准确。
第二、现有商品相似度计算方法的计算时间依然很长,且限制条件过强会导致计算结果缺失大量的相似商品。
发明内容
有鉴于此,本发明实施例提供一种计算商品相似度的方法和装置,能够使计算出的相似商品符合高层次的“相像”,提高商品相似度的计算准确率和计算效率。
为实现上述目的,根据本发明的一个方面,提供了一种计算商品相似度的方法。
本发明的计算商品相似度的方法包括:将商品特征数据输入深度学习模型,以训练得到特征词向量;基于多个特征词向量构建商品向量;根据哈希算法筛选所述商品向量的相似商品候选集;计算所述商品向量与其相似商品候选集中的商品向量的相似度。
可选地,所述深度学习模型为word2vec模型。
可选地,所述基于多个特征词向量构建商品向量的步骤包括:根据商品特征出现的频率确定特征词向量的权重;对所述多个特征词向量进行加权求和,以得到商品向量。
可选地,所述哈希算法为随机映射局部敏感哈希算法。
可选地,所述根据哈希算法筛选所述商品向量的相似商品候选集的步骤包括:计算所述商品向量的哈希签名;根据设置的哈希签名的比较步长值确定所述商品向量的相似商品;判断所述商品向量的相似商品数量是否大于预设阈值;在所述商品向量的相似商品数量大于预设阈值的情况下,基于所述相似商品构建所述商品向量的相似商品候选集。
可选地,所述根据哈希算法筛选所述商品向量的相似商品候选集的步骤还包括:在所述商品向量的相似商品数量不大于预设阈值的情况下,降低所述比较步长值,并基于降低后的比较步长值确定所述商品向量的相似商品。
可选地,所述方法还包括:根据如下公式计算商品向量的相似度:余弦距离公式、汉明距离公式、或欧式距离公式。
为实现上述目的,根据本发明的另一方面,提供了一种计算商品相似度的装置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710984891.2/2.html,转载请声明来源钻瓜专利网。