[发明专利]非结构化数据处理方法及装置有效

专利信息
申请号: 201611197679.3 申请日: 2016-12-22
公开(公告)号: CN108228664B 公开(公告)日: 2021-02-09
发明(设计)人: 陈毅 申请(专利权)人: 中国移动通信集团上海有限公司;中国移动通信集团公司
主分类号: G06F16/25 分类号: G06F16/25;G06F16/22;G06F16/33
代理公司: 北京路浩知识产权代理有限公司 11002 代理人: 李相雨
地址: 200060 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 结构 数据处理 方法 装置
【权利要求书】:

1.一种非结构化数据处理方法,其特征在于,包括:

对获取的非结构化的数据进行处理,以获取目标格式的数据;

对所述目标格式的数据的内容进行识别,以根据识别的结果将所述目标格式的数据转换为结构化的数据;

通过调用预设服务器的索引生成工具,为所述结构化的数据生成相应的索引;

所述方法还包括非结构化数据获取步骤:

适配器中的接口适配控制器根据实际的非结构化数据的类型,调用相应的接口进行数据读取;

完成接口调用后,所述接口适配控制器生成一条表示调用任务完成的调用记录,并把该调用记录在调度模块中进行注册;

在所述注册完成后,所述调度模块触发所述调用任务的代码在连接管理模块中与相应非结构化数据进行连接;

在所述连接建立后,适配器根据接口的实际情况,自动生成该非结构化数据采集任务的同步或异步的RPC调用方法代码;

在所述RPC调用方法代码生成后,适配器在管理监控模块中将该任务的代码自动发布成服务,并根据SOA原则对外提供服务功能;

所述方法还包括:

获取所述非结构化的数据后,根据构建的容错库对获取的所述非结构化的数据进行容错性处理;

其中,所述容错库中包括已知的所有类型的非结构化的数据的处理规则及方法,具体包括:

所述非结构化数据首先进入容错层,并依次验证通过所述容错库中各个标本库;

若未通过所述标本库,则进入异常判定模块;

若异常问题为新的编码问题,且该新的编码问题具有一定的代表性,则在所述标本库中生成该新的编码问题的处理的逻辑和定义,然后调用重试层的编码重试模块;而若该新的编码问题是特殊问题,且没有代表意义,则根据预设规则修改该非结构化的数据后,直接调用重试层的编码重试模块。

2.根据权利要求1所述的方法,其特征在于,所述对获取的非结构化的数据进行处理,以获取目标格式的数据,包括:

对获取的多种类型的非结构化的数据中的每一所述非结构化的数据进行处理,以分别获取每一所述非结构化的数据对应的所述目标格式的数据。

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:

对多个所述目标格式的数据进行统一读取,并将读取的数据存储于本地。

4.根据权利要求1所述的方法,其特征在于,所述预设服务器包括企业级搜索应用服务器SOLR。

5.根据权利要求1-4任一项所述的方法,其特征在于,所述对获取的非结构化的数据进行处理,还包括:

若判断获知所述非结构化的数据的文件本身损坏或不可读,则在预设时间后重复执行所述对获取的非结构化的数据进行处理的操作。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团上海有限公司;中国移动通信集团公司,未经中国移动通信集团上海有限公司;中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611197679.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top