[发明专利]非结构化数据的结构化检索方法及系统有效

专利信息
申请号: 201210307974.5 申请日: 2012-08-27
公开(公告)号: CN103631818B 公开(公告)日: 2018-08-24
发明(设计)人: 孟进;马春光 申请(专利权)人: 深圳中兴网信科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京派特恩知识产权代理有限公司 11270 代理人: 蒋雅洁;张颖玲
地址: 518000 广东省深圳市*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 非结构化数据 检索管理 脚本 检索 结构化检索 操作执行单元 检索效率 解析单元 配置单元 复杂度 配置的 调用 解析 配置
【说明书】:

发明公开了一种非结构化数据的结构化检索方法,该方法包括:根据检索管理操作的需要,分别对应配置用于非结构化数据检索的参数和非结构化数据检索脚本;调用所述非结构化数据检索脚本并解析,并从所配置的参数中提取所述非结构化数据检索脚本所需的参数;将提取的参数传送给所述非结构化数据检索脚本使用,执行对应的检索管理操作。本发明还公开了一种非结构化数据的结构化检索系统,该系统包括配置单元、解析单元、检索管理操作执行单元,其中,检索管理操作执行单元,用于将提取的参数传送给所述非结构化数据检索脚本使用,执行对应的检索管理操作。采用本发明,检索效率高,检索管理复杂度低。

技术领域

本发明涉及数据检索管理技术,尤其涉及一种非结构化数据的结构化检索方法及系统。

背景技术

目前业界对非结构化数据的检索主要使用全文索引技术,通过建立倒排索引文件的传统方法,以便可以根据关键字对非结构化数据进行全文内容检索。所谓倒排索引文件指:由倒排索引构成基于主文档的索引文件。该倒排索引文件中的每一项都包括一个属性值和具有该属性值的各记录的地址,从而由该属性值来确定记录的位置。其中,所述属性值可以是关键词,相应地,所述具有该属性值的各记录的地址就是关键词在一个主文档或者一组主文档中的存储位置,这样,在倒排索引文件中设置了关键词和其对应的地址的映射关系,就能通过关键词迅速找到主文档中的对应数据了。

然而,通过上述对现有倒排索引检索技术的实现原理描述可知,这种检索技术由于是通过关键词来进行检索,因此,对结构化的数据,尤其是简单的文本信息的检索是比较有效的,针对非结构化的数据,如多媒体信息、图片信息、报表信息这些非文本信息的检索,采用现有倒排索引检索技术却非常不便利,最多只能对非结构化数据进行一些简单的文本检索操作。

随着网络技术的发展,特别是Internet和Intranet技术的飞快发展,使得非结构化数据的数量日趋增大,如果仍然采用现有的倒排索引检索技术,不仅检索效率低下,检索管理复杂度也会越来越高。目前迫切需要一种检索方案,能对非结构化数据进行处理,并能达到和处理结构化数据一样的检索效果,降低检索管理复杂度。

发明内容

有鉴于此,本发明的主要目的在于提供一种非结构化数据的结构化检索方法及系统,对非结构化数据进行处理,不仅能达到和处理结构化数据一样的检索效果,而且检索效率高,降低检索管理复杂度。

为达到上述目的,本发明的技术方案是这样实现的:

一种非结构化数据的结构化检索方法,该方法包括:

根据检索管理操作的需要,分别对应配置用于非结构化数据检索的参数和非结构化数据检索脚本;

调用所述非结构化数据检索脚本并解析,并从所配置的参数中提取所述非结构化数据检索脚本所需的参数;

将提取的参数传送给所述非结构化数据检索脚本使用,执行对应的检索管理操作。

其中,所述检索管理操作具体包括:对非结构化数据的匹配查询、格式转换、统计分析操作中的一种或至少一种的组合。

其中,所述配置还包括:对不同类型的非结构化数据,对应所配置的不同的非结构化数据检索脚本,分别设置提取策略。

其中,所述提取非结构化数据检索脚本所需的参数具体包括:根据所述提取策略,提取所述非结构化数据检索脚本所需的参数,所提取的参数与当前被调用的所述非结构化数据检索脚本相对应。

一种非结构化数据的结构化检索系统,该系统包括:配置单元、解析单元、检索管理操作执行单元;其中,

所述配置单元,用于根据检索管理操作的需要,分别对应配置用于非结构化数据检索的参数和非结构化数据检索脚本;

所述解析单元,用于调用所述非结构化数据检索脚本并解析,并从所配置的参数中提取所述非结构化数据检索脚本所需的参数;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳中兴网信科技有限公司,未经深圳中兴网信科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210307974.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top