[发明专利]分析、转换和拆分结构化数据的方法和装置无效
申请号: | 200810080925.6 | 申请日: | 2008-02-29 |
公开(公告)号: | CN101520770A | 公开(公告)日: | 2009-09-02 |
发明(设计)人: | 李晓凯;尹宏斌 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22 |
代理公司: | 北京市中咨律师事务所 | 代理人: | 李 峥;于 静 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分析 转换 拆分 结构 数据 方法 装置 | ||
技术领域
本发明涉及数据处理领域,具体地,涉及分析结构化数据(structuraldata)的方法和装置、转换结构化数据的方法和装置以及拆分结构化数据的方法和装置。
背景技术
电子数据交换(Electronic Data Interchange,EDI)是这样一组标准:其用于构建要在商务、组织、政府实体和其他团体之间以及内部进行电子交换的信息。作为数据交换的标准手段,对于EDI来说,最重要的任务是分析根据EDI标准所构建的EDI文档,以使业务合作伙伴能够从中获得所感兴趣的有用信息。但是,很遗憾,如本领域技术人员所公知的,EDI文档是一种可读性很差的基于文本的文档。与XML文档相比较,EDI文档并不具有自描述信息。这导致在现有技术中、在对EDI文档进行分析时,首先要根据预定的分隔符信息等获取EDI文档的结构知识,然后才能够在该结构知识的基础上对EDI文档的具体内容进行分析。因而,在现有技术中,缺乏一种用于分析EDI文档的、标准且灵活的机制。
以WBSF Healthcare所附带的jigsaw所采用的机制为例,在现有技术中,分析EDI文档的过程通常如下:
1)正确地获得EDI文档的结构知识,其中需要预先知道有关在该EDI文档中所使用的所有分隔符的信息;
2)以字节流的形式从该EDI文档中读取字符串;
3)在字符串中搜索各段,并将这些段划分为元素,最后得到指定元素的值。
结果,在以上那样传统的EDI文档分析方案中,存在以下缺点和限制:
1)单调性:每一种结构的EDI文档都需要有其定制的分析器,因为分析器的代码严格依赖于EDI文档的特定结构。因此,对于不同结构的EDI文档,分析器的代码很难被重用。
2)不可读性:对于每一种结构的EDI文档来说,其分析器中都会存在大量冗余及重复的代码,因为读取和分析EDI文档中的各段的逻辑非常相似,并且分析器的代码依赖于大量的if/else语句来实现针对不同情况的处理。
3)不可扩展性:由于分析器的代码依赖于EDI文档的特定结构,所以一旦EDI文档的结构改变,则分析器的代码也必须相应改变以适应新的结构。
目前,存在一些试图改进上述那样传统的EDI文档分析机制的方案。下面列举出有代表性的两种。
1)构建核心分析框架并允许开发人员开发新的子类以满足扩展需要,参见名称为“Method facilitating data stream parsing for use withelectronic commerce”的美国专利6850950。
与传统的EDI文档分析方法相比较,该方案在可扩展性及可重用性上实现了一定的进步。但是,该方案仍然需要用户编写新的分析代码以适应新的EDI文档结构,从而缺乏充分的灵活性。
2)利用DTD(Document Type Definition,文档类型定义)描述EDI文档的结构,参见在http://www.americancoders.com/OpenBusinessObjects上登载的文章“OBOE-Open Business Objects for EDI”。
该方案不能完全避免为新结构的EDI文档编写新的分析代码。虽然该方案在灵活性上实现了一定的进步,但并不十分彻底。
以上这些问题,不仅仅存在于EDI文档的分析中,对于一些其他类型的结构化数据来说也是同样存在的。
因此,需要有一种灵活且可扩展的、用于分析诸如EDI文档的结构化数据的机制,以适应这样的结构化数据的多样性。
发明内容
为了解决上述问题,本发明提供了一种分析结构化数据的方法和装置、转换结构化数据的方法和装置以及拆分结构化数据的方法和装置,以便通过利用正则表达式预先构建与诸如EDI文档的结构化数据的结构和验证有关的模式信息,而在分析过程中直接利用该模式信息获取该结构化数据的结构信息并对该结构化数据进行验证,来解除分析方法和装置对于结构化数据的特定结构的依赖性,从而提供具有最大灵活性和可扩展性的自描述结构化数据分析机制。
根据本发明的一个方面,提供了一种分析结构化数据(structural data)的方法,其特征在于,包括:利用预先定义的与上述结构化数据相对应的模式信息(schema information),对上述结构化数据进行分析和验证;其中,上述模式信息包括利用正则表达式(regular expression)表示的与该结构化数据的结构和验证有关的信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810080925.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种海量医学图像三维可视化处理系统
- 下一篇:多媒体播放调整方法及系统