[发明专利]非结构化数据处理方法及装置有效
申请号: | 201611197679.3 | 申请日: | 2016-12-22 |
公开(公告)号: | CN108228664B | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | 陈毅 | 申请(专利权)人: | 中国移动通信集团上海有限公司;中国移动通信集团公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/22;G06F16/33 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 李相雨 |
地址: | 200060 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结构 数据处理 方法 装置 | ||
1.一种非结构化数据处理方法,其特征在于,包括:
对获取的非结构化的数据进行处理,以获取目标格式的数据;
对所述目标格式的数据的内容进行识别,以根据识别的结果将所述目标格式的数据转换为结构化的数据;
通过调用预设服务器的索引生成工具,为所述结构化的数据生成相应的索引;
所述方法还包括非结构化数据获取步骤:
适配器中的接口适配控制器根据实际的非结构化数据的类型,调用相应的接口进行数据读取;
完成接口调用后,所述接口适配控制器生成一条表示调用任务完成的调用记录,并把该调用记录在调度模块中进行注册;
在所述注册完成后,所述调度模块触发所述调用任务的代码在连接管理模块中与相应非结构化数据进行连接;
在所述连接建立后,适配器根据接口的实际情况,自动生成该非结构化数据采集任务的同步或异步的RPC调用方法代码;
在所述RPC调用方法代码生成后,适配器在管理监控模块中将该任务的代码自动发布成服务,并根据SOA原则对外提供服务功能;
所述方法还包括:
获取所述非结构化的数据后,根据构建的容错库对获取的所述非结构化的数据进行容错性处理;
其中,所述容错库中包括已知的所有类型的非结构化的数据的处理规则及方法,具体包括:
所述非结构化数据首先进入容错层,并依次验证通过所述容错库中各个标本库;
若未通过所述标本库,则进入异常判定模块;
若异常问题为新的编码问题,且该新的编码问题具有一定的代表性,则在所述标本库中生成该新的编码问题的处理的逻辑和定义,然后调用重试层的编码重试模块;而若该新的编码问题是特殊问题,且没有代表意义,则根据预设规则修改该非结构化的数据后,直接调用重试层的编码重试模块。
2.根据权利要求1所述的方法,其特征在于,所述对获取的非结构化的数据进行处理,以获取目标格式的数据,包括:
对获取的多种类型的非结构化的数据中的每一所述非结构化的数据进行处理,以分别获取每一所述非结构化的数据对应的所述目标格式的数据。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
对多个所述目标格式的数据进行统一读取,并将读取的数据存储于本地。
4.根据权利要求1所述的方法,其特征在于,所述预设服务器包括企业级搜索应用服务器SOLR。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述对获取的非结构化的数据进行处理,还包括:
若判断获知所述非结构化的数据的文件本身损坏或不可读,则在预设时间后重复执行所述对获取的非结构化的数据进行处理的操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团上海有限公司;中国移动通信集团公司,未经中国移动通信集团上海有限公司;中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611197679.3/1.html,转载请声明来源钻瓜专利网。