[发明专利]类目标签匹配映射方法及装置有效
申请号: | 201610195707.1 | 申请日: | 2016-03-31 |
公开(公告)号: | CN105893349B | 公开(公告)日: | 2019-06-04 |
发明(设计)人: | 方庆安;范羽;崔世起 | 申请(专利权)人: | 新浪网技术(中国)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/9535 |
代理公司: | 北京卓岚智财知识产权代理事务所(特殊普通合伙) 11624 | 代理人: | 任漱晨 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例提供一种类目标签匹配映射方法及装置,该方法包括:获取源类目标签的标签信息和目标类目标签的标签信息;根据标签字符串,分别确定各源类目标签和各目标类目标签的字面相似度;根据标签信息得到标签的向量化信息,结合标签路径信息,分别确定各源类目标签和各目标类目标签的语义相似度;根据标签路径信息,分别确定各源类目标签和各目标类目标签的结构相似度;根据各源类目标签与各目标类目标签的字面相似度、语义相似度和结构相似度中的至少一个,选择出相似度符合设定条件的源类目标签和目标类目标签,建立映射关系。能够实现快速、准确的标签相似度匹配和标签映射,匹配映射的效率高,不需要人工参与,节约人力物力财力。 | ||
搜索关键词: | 类目标 源类 标签信息 相似度 映射 匹配 结构相似度 语义相似度 标签路径 标签 人力物力财力 标签字符串 相似度匹配 标签映射 人工参与 设定条件 映射关系 获取源 向量化 节约 | ||
【主权项】:
1.一种类目标签匹配映射方法,其特征在于,包括:获取源类目标签的标签信息和目标类目标签的标签信息,并对获取的源类目标签的标签信息和目标类目标签的标签信息进行分词操作,过滤掉无用词;根据标签信息中包括的标签字符串,分别确定各源类目标签和各目标类目标签的字面相似度;根据标签信息得到标签的向量化信息,根据标签的向量化信息和标签信息中包括的标签路径信息,分别确定各源类目标签和各目标类目标签的语义相似度;根据标签信息中包括的标签路径信息,结合字面相似度和语义相似度,分别确定各源类目标签和各目标类目标签的结构相似度;根据各源类目标签与各目标类目标签的字面相似度、语义相似度和结构相似度中的至少一个,选择出相似度符合设定条件的源类目标签和目标类目标签,建立映射关系;其中,所述确定源类目标签和目标类目标签的结构相似度的过程,具体包括:根据源类目标签的标签路径信息和目标类目标签的标签路径信息,获取标签路径信息中的父节点信息、子节点信息和兄弟节点信息;以及根据字面相似度和语义相似度确定基础相似度;基于父节点信息,根据基础相似度计算源类目标签和目标类目标签的祖先节点相似度;基于子节点信息,根据基础相似度计算源类目标签和目标类目标签的子孙节点相似度;基于兄弟节点信息,根据基础相似度计算源类目标签和目标类目标签的兄弟节点相似度;根据祖先节点相似度、子孙节点相似度和兄弟节点相似度,采用设定的加权规则或选择规则,确定源类目标签和目标类目标签的结构相似度。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新浪网技术(中国)有限公司,未经新浪网技术(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610195707.1/,转载请声明来源钻瓜专利网。