[发明专利]一种统一标签库的更新方法及装置有效
申请号: | 201610906668.1 | 申请日: | 2016-10-18 |
公开(公告)号: | CN107958008B | 公开(公告)日: | 2020-10-27 |
发明(设计)人: | 赵耀红;高丹;邓超;熊龙;李广义 | 申请(专利权)人: | 中国移动通信有限公司研究院;中国移动通信集团公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 朱琳爱义 |
地址: | 100053 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 统一 标签 更新 方法 装置 | ||
1.一种统一标签库的更新方法,其特征在于,包括:
确定获取的统一标签库外部的具有树状结构的外部内容标签以及各所述外部内容标签之间的隶属关系;
根据所述外部内容标签、各所述外部内容标签之间的隶属关系、所述统一标签库包含的统一内容标签以及各所述统一内容标签之间的隶属关系,分别确定除叶子节点之外的各所述外部内容标签与所述统一标签库中相对应层级的每个统一内容标签的相似度;
根据各所述外部内容标签与所述统一标签库中相对应层级的每个统一内容标签的相似度,确定除叶子节点之外的各所述外部内容标签是否存在相似度最高的靶位标签;
将存在靶位标签的外部内容标签的子内容标签融合至所述靶位标签的子内容标签内;
将不存在靶位标签的外部内容标签以及子内容标签加入至所述统一标签库中相对应层级中;
所述将存在靶位标签的外部内容标签的子内容标签融合至所述靶位标签的子内容标签内,具体包括:
按照从各所述外部内容标签中叶子节点的上一层级至根节点的顺序,分别将每一层级中存在靶位标签的外部内容标签的子内容标签融合至所述靶位标签的子内容标签内;
所述将不存在靶位标签的外部内容标签以及子内容标签加入至所述统一标签库中相对应层级中,具体包括:
按照从各所述外部内容标签中叶子节点的上一层级至根节点的顺序,分别将每一层级中不存在靶位标签的外部内容标签以及子内容标签加入至所述统一标签库中的相对应层级中。
2.如权利要求1所述的更新方法,其特征在于,所述确定获取的统一标签库外部的具有树状结构的外部内容标签以及各所述外部内容标签之间的隶属关系,具体包括:
获取所述统一标签库外部的互联网内容标签数据或外部系统自有的内容标签数据;
确定所述互联网内容标签数据或所述外部系统自有的内容标签数据中包含的各外部内容标签之间的隶属关系。
3.如权利要求1所述的更新方法,其特征在于,所述分别确定除叶子节点之外的各所述外部内容标签与所述统一标签库中相对应层级的每个统一内容标签的相似度,具体包括:
按照从各所述外部内容标签中叶子节点的上一层级至根节点的顺序,分别计算每一层级中各所述外部内容标签与所述统一标签库中相对应层级的每个统一内容标签的相似度。
4.如权利要求1所述的更新方法,其特征在于,所述分别确定除叶子节点之外的各所述外部内容标签与所述统一标签库中相对应层级的每个统一内容标签的相似度,具体包括:
利用如下公式计算每一层级中各所述外部内容标签A与所述统一标签库中相对应层级的每个统一内容标签B的相似度:
其中,a为所述外部内容标签A中的子内容标签,b为所述统一标签库中相对应层级的内容标签B中的子内容标签,S{a,b}为所述外部内容标签A与所述统一标签库中相对应层级的内容标签B的相似度,N(A∩B)为所述外部内容标签A的子内容标签与所述统一标签库中相对应层级的内容标签B的子内容标签的交集子内容标签个数,N(A∪B)为所述外部内容标签A的子内容标签与所述统一标签库中相对应层级的内容标签B的子内容标签的并集子内容标签个数。
5.如权利要求1所述的更新方法,其特征在于,所述将存在靶位标签的外部内容标签的子内容标签融合至所述靶位标签的子内容标签内,具体包括:
将存在靶位标签的外部内容标签的子内容标签,与所述靶位标签的子内容标签逐一比对;
在确定所述外部内容标签的子内容标签与所述靶位标签的子内容标签均不相同或均不相似时,将所述外部内容标签的子内容标签加入所述靶位标签的子内容标签中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信有限公司研究院;中国移动通信集团公司,未经中国移动通信有限公司研究院;中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610906668.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:病例信息检索方法及装置
- 下一篇:企业信息获取方法、装置以及设备