[发明专利]一种数据的标签匹配方法及装置有效
申请号: | 201710723820.7 | 申请日: | 2017-08-22 |
公开(公告)号: | CN107463711B | 公开(公告)日: | 2020-07-28 |
发明(设计)人: | 王颜;崔乐乐;王传超;徐宏伟;姚民伟 | 申请(专利权)人: | 山东浪潮云服务信息科技有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 李世喆 |
地址: | 250100 山东省济南市高*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 标签 匹配 方法 装置 | ||
本发明提供了一种数据的标签匹配方法及装置,该方法包括:构建样本标签表,所述样本标签表中包括至少一个样本标签,以及各个所述样本标签的层级关系,各个所述样本标签均对应同一个标签类型;根据所述至少一个样本标签的标签类型,从预先获取的数据中提取出与所述标签类型相对应的目标字段,所述目标字段中包括至少一个关键词;针对每一个所述样本标签,均执行:确定所述目标字段中是否存在与所述样本标签相对应的目标关键词,如果是,将所述样本标签确定为参考标签;根据确定出的参考标签以及各个所述样本标签的层级关系,从所述至少一个样本标签中,确定与所述目标字段对应的数据相对应的至少一个匹配标签。本方案能提高标签匹配的准确性。
技术领域
本发明涉及计算机技术领域,特别涉及一种数据的标签匹配方法及装置。
背景技术
数据分析可帮助人们对数据做出准确判断,以便采取适当行动,在实用过程中具有重要作用,而数据分析的前提是对数据的清洗、处理和标签匹配。
对数据进行标签匹配时,主要通过检索与标签的类型相对应的关联词,将检索到的关联词所对应的数据确定为与标签相匹配的数据。例如,标签为北京市时,在进行标签匹配时,在互联网采集的数据中检索是否存在关联词“市”,若存在,则默认该关联词前面的数据为与该标签对应的关键词,即默认“市”前面的数据为关键词为“北京”,然后将此标签确认为该数据的匹配标签。
在此过程中,仅通过检索关联词即确定出了匹配标签,而未准确确定关联词对应的关键词是否与标签内容准确对应,例如,当关联词“市”前面的字符为乱码时,在此方法中仍将其与标签北京市相匹配,这导致标签匹配的准确性较低。
发明内容
本发明实施例提供了数据的标签匹配方法及装置,能提高标签匹配的准确性。
第一方面,本发明实施例提供了一种数据的标签匹配方法,包括:
构建样本标签表,所述样本标签表中包括至少一个样本标签,以及各个所述样本标签的层级关系;其中,各个所述样本标签均对应同一个标签类型;
根据所述至少一个样本标签的所述标签类型,从预先获取的数据中提取出与所述标签类型相对应的目标字段;
针对每一个所述样本标签,均执行:
确定所述目标字段中是否存在与所述样本标签相对应的目标关键词,如果是,将所述样本标签确定为参考标签;
根据确定出的参考标签以及各个所述样本标签的层级关系,从所述至少一个样本标签中,确定与所述目标字段对应的数据相对应的至少一个匹配标签。
优选地,
在所述根据所述至少一个样本标签的标签类型,从预先获取的数据中提取出与所述标签类型相对应的目标字段之后,进一步包括:
根据所述至少一个样本标签的数据格式,设置与所述数据格式相对应的词法分析器;
为所述目标字段建立全文索引,并指定设置的所述词法分析器;
利用指定的所述词法分析器,将所述目标字段拆分成至少一个关键词;
则,
所述确定所述目标字段中是否存在与所述样本标签相对应的目标关键词,包括:
利用所述目标字段建立的所述全文索引,检索所述至少一个关键词中是否存在与所述样本标签相对应的目标关键词。
优选地,
在所述确定所述目标字段中是否存在与所述样本标签相对应的目标关键词之前,进一步包括:
根据各个所述样本标签的层级关系,分别设置每一个层级对应的游标;
则,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东浪潮云服务信息科技有限公司,未经山东浪潮云服务信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710723820.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置