[发明专利]一种基于商品属性归一和聚类识别产品的方法有效
申请号: | 201310538245.5 | 申请日: | 2013-11-04 |
公开(公告)号: | CN103559267B | 公开(公告)日: | 2016-11-30 |
发明(设计)人: | 赵金杰;吴尉林;王放 | 申请(专利权)人: | 北京中搜网络技术股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q30/06 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 100191 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 商品 属性 识别 产品 方法 | ||
1.一种基于商品属性归一和聚类识别产品的方法,其特征在于:所述方法包括以下步骤:
I、建立标准库;
II、根据商品页信息和所述标准库对所述商品进行属性整理;
III、输出标准商品信息;
IV、根据所述标准商品信息和所述标准库对所述商品的属性聚类;
V、标准商品信息获得产品ID。
2.如权利要求1所述的一种基于商品属性归一和聚类识别产品的方法,其特征在于:所述步骤I的标准库包括商品品类信息,所述商品品类信息包括:品类ID、品类对应的关键属性表。
3.如权利要求1所述的一种基于商品属性归一和聚类识别产品的方法,其特征在于:所述步骤II包括以下步骤:
S201、根据商品页信息获得商品信息,将商品的属性及其对应的属性值生成md5;
S202、对商品的属性和对应属性值进行权重排序;
S203、将商品的属性名加上所述商品的品类ID并生成md5;
S204、在标准库中查找所述品类ID的属性表,查找成功则进入S205,否则进入步骤S208;
S205、获得所述属性的信息,所述信息包括属性ID、属性关键性类型;
S206、对所述属性的信息标注并归一,处理所述属性的属性值串并生成md5;
S207、查询标准库对属性值归一处理,若成功则属性归一成功,否则属性归一失败,标注为普通属性;
S208、查询失败,将所述属性标注为噪音属性。
4.如权利要求1所述的一种基于商品属性归一和聚类识别产品的方法,其特征在于:根据所述步骤II获得所述商品的品类ID,并对所述商品的属性进行归一处理,获得所述步骤III的标准商品信息。
5.如权利要求1所述的一种基于商品属性归一和聚类识别产品的方法,其特征在于:所述步骤IV包括以下步骤:
S401、输入标准商品信息;
S402、判断所述商品的数据中是否有唯一属性,是则进入S403,否则进入S404;
S403、将所述唯一属性的属性值生产md5设为聚类后的产品ID,识别完成;
S404、根据标准库中的产品辨别属性信息识别所述商品的所属于的标准产品;
S405、判断是否识别成功,成功则返回所述标准库中标准产品ID,否则返回商品页ID作为产品ID;
S406、通过商品价格和参考价格区间进行价格过滤,成功则获得彼岸准快中的产品ID,否则返回商品页DOCID作为产品ID;
S407、获得并返回产品ID的标准商品信息。
6.如权利要求1所述的一种基于商品属性归一和聚类识别产品的方法,其特征在于:根据所述步骤IV获得标准商品信息的产品ID,输出所述步骤V中具有产品ID的标准商品信息。
7.如权利要求5所述的一种基于商品属性归一和聚类识别产品的方法,其特征在于:所述步骤S406包括以下步骤:
S4061、查找所述商品对应的品类ID的品牌表,将所述品类ID的品牌表中每一个品牌在所述商品标题中查找;以标题中第一个出现的品牌为准,查找并记录品牌在商品标题中出现的位置;
S4062、以所述S4061中记录的品牌在标题中出现的位置为起始点A,依次查找所述品牌下的标准产品的其他关键属性在标题中的位置,获得其他关键属性均在所述标题中出现的标准产品,记录其他关键属性在标题中出现的位置L,计算出现位置L距离起点A的平均规则距离值Ln;
S4063、命中多个标准产品,输出最小平均规则距离值Ln值对应的标准产品信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中搜网络技术股份有限公司,未经北京中搜网络技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310538245.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种侧板可翻转安装的山地车
- 下一篇:一种铁水包运输挂车