[发明专利]数据索引装置和数据索引方法无效
申请号: | 201210491024.2 | 申请日: | 2012-11-27 |
公开(公告)号: | CN102945286A | 公开(公告)日: | 2013-02-27 |
发明(设计)人: | 赵兴成 | 申请(专利权)人: | 深圳中兴网信科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京友联知识产权代理事务所(普通合伙) 11343 | 代理人: | 尚志峰;汪海屏 |
地址: | 518057 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 索引 装置 方法 | ||
技术领域
本发明涉及数据处理领域,具体而言,涉及一种数据索引装置和数据索引方法。
背景技术
随着网络技术的发展,特别是互联网和企业内部网技术的飞快发展,使得半结构化数据的数量日趋增大。目前,对半结构化数据的处理主要是做结构化处理,进行结构化处理耗时较长,随着数据结构越来越来越复杂,结构化处理将越来越不适合产品应用。
因此,需要一种新的技术方案,可以使得在处理半结构化数据时,避免对其进行结构化处理时产生的耗时长等问题,而可以采取更好的方法对半结构化数据进行处理。
发明内容
本发明正是基于上述问题,提出了一种新的技术方案,可以使得在处理半结构化数据时,避免对其进行结构化处理时产生的耗时长等问题,而可以采取更好的方法对半结构化数据进行处理。
有鉴于此,本发明提出了一种数据索引装置,包括:读取单元,读取半结构化数据,判断所述半结构化数据中是否有与索引字段相匹配的字符串;标记单元,将所述字符串与索引字段相匹配的字段标记为符合字段,并在所述符合字段加入标签;索引建立单元,搜索引擎根据所述标签查找到需要索引的字段,并建立索引。
在该技术方案中,在处理半结构化数据时,将半结构化数据中与索引字段匹配的字段加上标签,在搜索引擎建立索引时,找到与需要索引的字段相匹配的标签即可,而不必再对数据进行结构化处理,从而方便搜索引擎建立索引,使得搜索引擎的实时性有了更大的提升。
在上述技术方案中,优选地,还包括:转存单元,在所述读取单元读取完所述半结构化数据以后,将所有已加入标签的数据转存到索引目录中。
在该技术方案中,在对半结构化数据进行遍历以后,将所有已加标签的数据都存到索引目录,这样搜索引擎在建立索引时,只从索引目录中查找与其搜索内容匹配的标签即可,而不必在所有半结构化数据中进行查找匹配,从而缩短了查找时间,能够更快速地为搜索引擎提供数据源。
在上述技术方案中,优选地,所述标签包括标签标识、字段位置及字段信息。
在该技术方案中,加入到符合字段的标签上除了包含标签标识外,还包括字段位置和字段信息,搜索引擎在建立索引时,根据标签位置及标签信息即可找到与其搜索内容匹配的标签。
在上述技术方案中,优选地,所述字段位置包括字段偏移量,所述字段信息包括字段名称。
在该技术方案中,具体地,字段位置包括字段的偏移量,字段信息包括字段名称,搜索引擎在建立索引时,根据索引内容找到与其匹配的字段名称,再根据标签中字段名称对应的字段偏移量,找到字段,从而建立索引。
在上述技术方案中,优选地,所述索引目录中包括多种数据源格式的数据。
本发明的技术方案可以适用于多种数据源格式。
根据本发明的又一方面,还提供了一种数据索引方法,包括:步骤202,读取半结构化数据,判断所述半结构化数据中是否有与索引字段相匹配的字符串;步骤204,将所述字符串与索引字段相匹配的字段标记为符合字段,并在所述符合字段加入标签;步骤206,搜索引擎根据所述标签查找到需要索引的字段,并建立索引。
在该技术方案中,在处理半结构化数据时,将半结构化数据中与索引字段匹配的字段加上标签,在搜索引擎建立索引时,找到与需要索引的字段相匹配的标签即可,从而方便搜索引擎建立索引,使得搜索引擎的实时性有更大的提升。
在上述技术方案中,优选地,所述步骤206还包括:在读取完所述半结构化数据以后,将所有已加入标签的数据转存到索引目录中。
在该技术方案中,在对半结构化数据进行遍历以后,将所有已加标签的数据都存到索引目录,这样搜索引擎在建立索引时,只从索引目录中查找与其搜索内容匹配的标签即可,而不必在所有半结构化数据中进行查找匹配,从而缩短了查找时间,能够更快速的为搜索引擎提供数据源。
在上述技术方案中,优选地,所述标签包括标签标识、字段位置及字段信息。
在该技术方案中,加入到符合字段的标签上除了包含标签标识外,还包括字段位置和字段信息,搜索引擎在建立索引时,根据标签位置及标签信息即可找到与其搜索内容匹配的标签。
在上述技术方案中,优选地,所述字段位置包括字段偏移量,所述字段信息包括字段名称。
在该技术方案中,具体地,字段位置包括字段的偏移量,字段信息包括字段名称,搜索引擎在建立索引时,根据索引内容找到与其匹配的字段名称,再根据标签中字段名称对应的字段偏移量,找到字段,从而建立索引。
在上述技术方案中,优选地,所述索引目录中包括多种数据源格式的数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳中兴网信科技有限公司,未经深圳中兴网信科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210491024.2/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置