[发明专利]非结构化数据处理方法及装置有效
申请号: | 201611197679.3 | 申请日: | 2016-12-22 |
公开(公告)号: | CN108228664B | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | 陈毅 | 申请(专利权)人: | 中国移动通信集团上海有限公司;中国移动通信集团公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/22;G06F16/33 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 李相雨 |
地址: | 200060 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结构 数据处理 方法 装置 | ||
本发明涉及一种非结构化数据处理方法及装置,其中,所述方法包括:对获取的非结构化的数据进行处理,以获取目标格式的数据;对所述目标格式的数据的内容进行识别,以根据识别的结果将所述目标格式的数据转换为结构化的数据;通过调用预设服务器的索引生成工具,为所述结构化的数据生成相应的索引。本发明的非结构化数据处理方法及装置,可以实现统一接入多种复杂的非结构化数据源,增强了对非结构数据源中数据实体的处理方法,保证了数据读取的有效性和效率,实现了可热插拔的处理数据,提高了系统配置的灵活性,通过提供容错机制,对大规模非结构化数据源的处理提供了效率和有效性保证。
技术领域
本发明涉及数据业务技术领域,尤其涉及一种非结构化数据处理方法及装置。
背景技术
目前,数据处理的方法主要包括应用程序编程接口API、数据仓库技术ETL、DB数据接口以及消息队列(MQ)。具体地,API是在应用之间开发接口程序,利用通信协议(如SOAP,HTTP等),按业务逻辑,将原数据抽取后,写入目标数据库;ETL是利用现有的、成熟的工具,在数据来源与数据目标之间建立数据通道,通过数据引擎将数据从来源库导入目标库;DB接口是在关系型数据库之间,配置数据库连接,按数据库表条目,读取原数据后,将结果插入目标数据库;消息队列(MQ)是利用消息的方式,封装来数据,通过队列的方式,将消息数据发送到目标数据中。
然而,上述的数据处理方法在进行数据抽取时均具有一定缺点。具体地,API由于采用的是硬编码的方式,其代码灵活性不足,代码耦合性较大,变更成本较高,且对于富文本对象,xml/HTTP等资源的处理比较复杂;现有的ETL工具开发使用门槛较高,开发复杂度较高,开发灵活性不足,且对于富文本对象,xml/HTTP等资源的支持比较差;DB接口在数据库底层实现,其在处理复杂问题时,扩展性较差,且主要局限在相同的数据库中,异构数据库难度较大,且对于富文本对象,xml/HTTP等资源的支持比较差;消息队列(MQ)的特点在于异步的处理,因此不能满足实时性要求比较高的问题,且对于富文本对象,xml/HTTP等资源的支持比较差。
由此可知,现有的数据处理方法针对不同类型的数据源进行抽取时的兼容性和灵活性较差。
发明内容
针对现有的数据处理方法针对不同类型的数据源进行抽取时的兼容性和灵活性较差的缺陷,本发明提出如下技术方案:
本发明一方面提供了一种非结构化数据处理方法,包括:
对获取的非结构化的数据进行处理,以获取目标格式的数据;
对所述目标格式的数据的内容进行识别,以根据识别的结果将所述目标格式的数据转换为结构化的数据;
通过调用预设服务器的索引生成工具,为所述结构化的数据生成相应的索引。
可选地,所述对获取的非结构化的数据进行处理,以获取目标格式的数据,包括:
对获取的多种类型的非结构化的数据中的每一所述非结构化的数据进行处理,以分别获取每一所述非结构化的数据对应的所述目标格式的数据。
可选地,所述方法还包括:
对多个所述目标格式的数据进行统一读取,并将读取的数据存储于本地。
可选地,所述预设服务器包括企业级搜索应用服务器SOLR。
可选地,所述方法还包括:
采用同步或异步的远程过程调用协议RPC调用方法对获取的多种类型的非结构化的数据中的每一所述非结构化的数据进行处理。
可选地,所述对获取的非结构化的数据进行处理,还包括:
若判断获知所述非结构化的数据的文件本身损坏或不可读,则在预设时间后重复执行所述对获取的非结构化的数据进行处理的操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团上海有限公司;中国移动通信集团公司,未经中国移动通信集团上海有限公司;中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611197679.3/2.html,转载请声明来源钻瓜专利网。