[发明专利]商品领域的知识融合方法在审
申请号: | 201710117723.3 | 申请日: | 2017-03-01 |
公开(公告)号: | CN108536664A | 公开(公告)日: | 2018-09-14 |
发明(设计)人: | 杨静;潘栋 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30;G06Q30/06 |
代理公司: | 上海隆天律师事务所 31282 | 代理人: | 臧云霄;夏彬 |
地址: | 200333 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 知识融合 商品数据 融合 商品领域 商品知识 词向量 相似度 知识库 抓取 距离计算 商品属性 属性映射 传统的 维度 预设 登录 集合 外部 服务 | ||
本发明提供了一种商品领域的知识融合方法,其中包括获取待处理的商品数据;采用Word2Vector方法将各个属性映射成具有多个维度的词向量;根据属性中属性值的词向量距离计算每两个属性之间的相似度;将相似度高于预设阈值的两个属性融合为同一类属性,得到属性融合后的商品数据集合。本发明提供了一种知识融合效果更好的知识融合方法,抓取了大量的商品数据进行训练,在对商品属性进行融合时,一方面大大减少了未登录词的出现,另一方面即使各别的属性值不存在,不会影响到该方法的运行,因此比传统的利用外部知识库的方法更加具有实用性;本方法不仅适用于电商领域的商品知识融合,也适用于其他领域的商品知识融合,从而提供基于知识的更好的服务。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种应用简便且知识融合效果更好的商品领域的知识融合方法。
背景技术
随着社会的发展,每天产生的大量数据,由于不同数据库,对于不同知识的表达不同,所以对于如何从不同数据库中发现相同的知识,变得十分重要。对于自动化或半自动化构建本体或分类树,有着重要的意义。人工进行知识融合,既花费人力又耗时。所以,对于从不同数据库中发现相同知识并非易事,这需要让计算机自动理解不同数据库中的知识,并发现它们之间的关系。
知识融合,是指发现异构数据库中相同概念的不同表达,它通过对分布式数据源和知识源进行组织和管理,结合应用需求对知识元素进行转化、集成和融合等处理,从而获取有价值或可用的新知识,同时对知识对象的结构和内涵进行优化,提供基于知识的服务。知识融合的研究对于分布式知识库环境中的知识共享、知识系统的交互、集成和协同工作、知识服务质量的优化等方面具有一定的价值,特别对于研究基于知识内涵的知识发现以及新知识的创建、组织、评价和优化等方面具有相当重要的意义。
传统的知识融合方法主要利用了结构化或半结构化数据库,或利用外部知识库,如HowNet和WordNet,发现不同数据库中相同概念的不同表达。其中,HowNet中文名称为知网,是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。WordNet是由普林斯顿大学的心理学家、语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。它不光是把单词以字母顺序排列,而且按照单词的意义组成一个单词的网络。因此,HowNet和WordNet实际上是两种比较常用的外部数据库。
然而针对电商领域,由于属性值多由电商自己定义,很多词并没有被外部数据库录入,同时由于是同一商品类的属性,属性间的相关性较高,无法利用外部知识库发现相似的属性。所以目前亟需一种电商领域的知识融合方法。
发明内容
针对现有技术中的问题,本发明的目的在于提供一种商品领域的知识融合方法,只需抓取待处理的商品数据即可,应用简便,在对商品属性进行融合时,融合效果更好。
本发明实施例提供一种商品领域的知识融合方法,包括如下步骤:
获取待处理的商品数据,所述商品数据包括商品的属性和各个所述属性所对应的属性值;
采用Word2Vector方法将各个所述属性映射成具有多个维度的词向量,各个所述词向量与所对应的属性中的各个属性值一一对应;
根据每两个属性中属性值的词向量距离计算每两个属性之间的相似度;
将相似度高于预设阈值的两个属性融合为同一类属性,得到属性融合后的商品数据集合。
可选地,获取待处理的商品数据之后,还包括如下步骤:
对所述待处理的商品数据进行预处理,使得所述待处理的商品数据中的无语义文本具有上下文联系。
可选地,对所述待处理的商品数据进行预处理,包括如下步骤:
对所述待处理的商品数据进行属性值归并;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710117723.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据标注方法及装置
- 下一篇:一种短文本信息提取方法和装置