[发明专利]计算商品相似度的方法和装置在审
申请号: | 201710984891.2 | 申请日: | 2017-10-20 |
公开(公告)号: | CN109697641A | 公开(公告)日: | 2019-04-30 |
发明(设计)人: | 李陈程;程苏珺;于海 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06Q30/06 | 分类号: | G06Q30/06 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 张一军;杨晓伟 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 商品向量 相似度 方法和装置 特征词 计算机技术领域 哈希算法 计算效率 商品特征 向量构建 候选集 准确率 向量 筛选 学习 | ||
1.一种计算商品相似度的方法,其特征在于,包括:
将商品特征数据输入深度学习模型,以训练得到特征词向量;
基于多个特征词向量构建商品向量;
根据哈希算法筛选所述商品向量的相似商品候选集;
计算所述商品向量与其相似商品候选集中的商品向量的相似度。
2.根据权利要求1所述的方法,其特征在于,所述深度学习模型为word2vec模型。
3.根据权利要求1所述的方法,其特征在于,所述基于多个特征词向量构建商品向量的步骤包括:
根据商品特征出现的频率确定特征词向量的权重;对所述多个特征词向量进行加权求和,以得到商品向量。
4.根据权利要求1所述的方法,其特征在于,所述哈希算法为随机映射局部敏感哈希算法。
5.根据权利要求4所述的方法,其特征在于,所述根据哈希算法筛选所述商品向量的相似商品候选集的步骤包括:
计算所述商品向量的哈希签名;根据设置的哈希签名的比较步长值确定所述商品向量的相似商品;判断所述商品向量的相似商品数量是否大于预设阈值;在所述商品向量的相似商品数量大于预设阈值的情况下,基于所述相似商品构建所述商品向量的相似商品候选集。
6.根据权利要求5所述的方法,其特征在于,所述根据哈希算法筛选所述商品向量的相似商品候选集的步骤还包括:
在所述商品向量的相似商品数量不大于预设阈值的情况下,降低所述比较步长值,并基于降低后的比较步长值确定所述商品向量的相似商品。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据如下公式计算商品向量的相似度:
余弦距离公式、汉明距离公式、或欧式距离公式。
8.一种计算商品相似度的装置,其特征在于,所述装置包括:
训练模块,用于将商品特征数据输入深度学习模型,以训练得到特征词向量;
构建模块,用于基于多个特征词向量构建商品向量;
筛选模块,用于根据哈希算法筛选所述商品向量的相似商品候选集;
计算模块,用于计算所述商品向量与其相似商品候选集中的商品向量的相似度。
9.根据权利要求8所述的装置,其特征在于,所述深度学习模型为word2vec模型。
10.根据权利要求8所述的装置,其特征在于,所述构建模块基于多个特征词向量构建商品向量,包括:
所述构建模块根据商品特征出现的频率确定特征词向量的权重;所述构建模块对所述多个特征词向量进行加权求和,以得到商品向量。
11.根据权利要求8所述的装置,其特征在于,所述哈希算法为随机映射局部敏感哈希算法。
12.根据权利要求11所述的装置,其特征在于,所述筛选模块根据哈希算法筛选所述商品向量的相似商品候选集,包括:
所述筛选模块计算所述商品向量的哈希签名;所述筛选模块根据设置的哈希签名的比较步长值确定所述商品向量的相似商品;所述筛选模块判断所述商品向量的相似商品数量是否大于预设阈值;在所述商品向量的相似商品数量大于预设阈值的情况下,所述筛选模块基于所述相似商品构建所述商品向量的相似商品候选集。
13.根据权利要求12所述的装置,其特征在于,所述筛选模块根据哈希算法筛选所述商品向量的相似商品候选集,还包括:
在所述商品向量的相似商品数量不大于预设阈值的情况下,所述筛选模块降低所述比较步长值,并基于降低后的比较步长值确定所述商品向量的相似商品。
14.根据权利要求8所述的装置,其特征在于,所述计算模块根据如下公式计算商品向量的相似度:
余弦距离公式、汉明距离公式、或欧式距离公式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710984891.2/1.html,转载请声明来源钻瓜专利网。