[发明专利]分布式XML数据处理方法及系统有效
申请号: | 201910588982.3 | 申请日: | 2019-07-02 |
公开(公告)号: | CN110297944B | 公开(公告)日: | 2022-02-11 |
发明(设计)人: | 浦婧蕾;钟慰;朱李悦;王斌 | 申请(专利权)人: | 中国工商银行股份有限公司 |
主分类号: | G06F16/80 | 分类号: | G06F16/80 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 王涛;任默闻 |
地址: | 100140 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 xml 数据处理 方法 系统 | ||
本申请提供一种分布式XML数据处理方法及系统,其中的方法包括:异步且并发地接收XML报文数据,并将所述XML报文数据并行拆分为多个报文片段;对各个所述报文片段进行解析,得到对应的数据对;将特征相同的所述数据对合并至同一报文数据组中,并存储各个所述报文数据组。本申请能够有效提高XML报文数据的处理效率及处理过程的可靠性,并能够有效提高XML报文数据的可扩展性和存储可靠性,以及有效降低数据冗余。
技术领域
本申请涉及数据处理技术领域,具体涉及一种分布式XML数据处理方法及系统。
背景技术
XML(Extensible Markup Language,可扩展标记语言)是一套定义语法标记的规则,这些标记将文档分成许多部件并对这些部件加以标识。它也是元标记语言,即用于定义其他与特定领域有关的、语义的和结构化的标记语言的句法语言,XML运用广泛,尤其是在商业报告领域,使用XML报文形式传送数据的场景不计其数。
目前,由于商业报告种类繁多,所涉及XML报文的元素类型复杂,文件规范多样,而为了能够确保数据准确性,现有技术通常采用串行处理模式对XML报文数据进行解析,即依次对每份基于XML数据的报告进行章节全量读取并解析,再对每个章节实现数据存储设计。
然后,现有的XML报文数据处理方式因需要对每张报表依次实现解析、存储、及核查维护,使其存在系统处理性能低、数据存储分散及可扩展性不足的问题。
发明内容
针对现有技术中的问题,本申请提供一种分布式XML数据处理方法及系统,能够有效提高XML报文数据的处理效率及处理过程的可靠性,并能够有效提高XML报文数据的可扩展性和存储可靠性,以及有效降低数据冗余。
为解决上述技术问题,本申请提供以下技术方案:
第一方面,本申请提供一种分布式XML数据处理方法,包括:
异步且并发地接收XML报文数据,并将所述XML报文数据并行拆分为多个报文片段;
对各个所述报文片段进行解析,得到对应的数据对;
将特征相同的所述数据对合并至同一报文数据组中,并存储各个所述报文数据组。
进一步地,所述异步且并发地接收XML报文数据,包括:
实时接收外部系统发送的XML报文数据,并根据接收的所述XML报文数据实时建立对应的接收任务;
应用各个所述接收任务并行获取各自对应的所述XML报文数据以及该XML报文数据对应的报文类别元素,并基于该报文类别元素确定对应的报文定义模型,并将所述报文定义模型和对应的所述XML报文数据进行封装,得到与各份所述XML报文数据一一对应的封装数据。
进一步地,所述将所述XML报文数据并行拆分为多个报文片段,包括:
应用与各个所述接收任务一一对应的各个拆分任务并行对各份所述封装数据进行拆分,得到各份所述封装数据分别对应的多个报文片段。
进一步地,所述对各个所述报文片段进行解析,得到对应的数据对,包括:
应用至少一个解析节点全量读取各个所述报文片段,并获取各个所述报文片段中的节点元素和元素值;
根据各份所述XML报文数据对应的报文定义模型,将各个所述报文片段中的所述节点元素和元素值映射为对应的符合目标形式内容的数据对。
进一步地,所述数据对的目标形式内容包括:作为所述数据对的特征的报告编码、存储路径、元素节点和元素值。
进一步地,所述将特征相同的所述数据对合并至同一报文数据组中,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910588982.3/2.html,转载请声明来源钻瓜专利网。