[发明专利]商品领域的知识融合方法在审
申请号: | 201710117723.3 | 申请日: | 2017-03-01 |
公开(公告)号: | CN108536664A | 公开(公告)日: | 2018-09-14 |
发明(设计)人: | 杨静;潘栋 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30;G06Q30/06 |
代理公司: | 上海隆天律师事务所 31282 | 代理人: | 臧云霄;夏彬 |
地址: | 200333 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 知识融合 商品数据 融合 商品领域 商品知识 词向量 相似度 知识库 抓取 距离计算 商品属性 属性映射 传统的 维度 预设 登录 集合 外部 服务 | ||
1.一种商品领域的知识融合方法,其特征在于,包括如下步骤:
获取待处理的商品数据,所述商品数据包括商品的属性和各个所述属性所对应的属性值;
采用Word2Vector方法将各个所述属性映射成具有多个维度的词向量,各个所述词向量与所对应的属性中的各个属性值一一对应;
根据每两个属性中属性值的词向量距离计算每两个属性之间的相似度;
将相似度高于预设阈值的两个属性融合为同一类属性,得到属性融合后的商品数据集合。
2.根据权利要求1所述的商品领域的知识融合方法,其特征在于,获取待处理的商品数据之后,还包括如下步骤:
对所述待处理的商品数据进行预处理,使得所述待处理的商品数据中的无语义文本具有上下文联系。
3.根据权利要求2所述的商品领域的知识融合方法,其特征在于,对所述待处理的商品数据进行预处理,包括如下步骤:
对所述待处理的商品数据进行属性值归并;
对属性值归并后的商品数据进行二值处理。
4.根据权利要求3所述的商品领域的知识融合方法,其特征在于,对所述待处理的商品数据进行属性值归并,包括如下步骤:
根据所述待处理的商品数据中各个所述属性的名称,将具有相同名称的属性所对应的属性值归并为一行。
5.根据权利要求4所述的商品领域的知识融合方法,其特征在于,对属性值归并后的商品数据进行二值处理,包括如下步骤:
对只包括肯定性和否定性两种属性值的属性进行处理,将该属性的肯定性属性值均替换为该属性的名称,将该属性的否定性属性值均替换为非字加上该属性的名称。
6.根据权利要求2所述的商品领域的知识融合方法,其特征在于,将各个所述属性映射成具有多个维度的词向量,包括如下步骤:
采用Word2Vector方法基于各个所述属性的上下文联系提取其各个属性值的词义特征,映射成具有多个维度的词向量,各个所述词向量与所对应的属性中的各个属性值一一对应。
7.根据权利要求1所述的商品领域的知识融合方法,其特征在于,根据如下公式计算每两个属性之间的相似度:
其中,属性A和属性B为所述待处理的商品数据中的两个属性,Dist(A,B)为属性A和属性B之间的相似度;
所述属性A中具有n个属性值,ai为属性A的第i个属性值,且i∈(1,n);
b_max(ai)为所述属性B中与属性值ai相似度最高的属性值;
dist(ai,b_max(ai))为属性值ai与属性值b_max(ai)的词向量距离。
8.根据权利要求1所述的商品领域的知识融合方法,其特征在于,根据每两个属性中属性值的词向量距离,以及所述属性中各个所述属性值的词频,计算得到每两个属性之间的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710117723.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据标注方法及装置
- 下一篇:一种短文本信息提取方法和装置