[发明专利]用于查询和集成结构化和非结构化数据的方法和系统有效
申请号: | 201310231310.X | 申请日: | 2013-06-09 |
公开(公告)号: | CN103488671B | 公开(公告)日: | 2017-06-16 |
发明(设计)人: | M·A·伯尼亚;S·段;J·J·范;A·福库-恩库彻;A·M·格里欧佐;A·卡雅恩普尔;A·凯门西斯迪斯;K·斯里尼瓦斯;M·J·沃德 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市中咨律师事务所11247 | 代理人: | 于静,张亚非 |
地址: | 美国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 查询 集成 结构 数据 方法 系统 | ||
相关申请的交叉引用
本申请涉及2010年5月14日提交的序号为12/780,663、代理人案号为SVL920100007US1、标题为“MAPPING OF RELATIONSHIP ENTITIES BETWEEN ONTOLOGIES(本体之间的关系实体映射)”的美国专利申请,以及2010年10月21日提交的序号为12/909,264、代理人案号为YOR920100523US1、标题为“PERFORMING MAPPINGS ACROSS MULTIPLE MODELS OR ONTOLOGIES(跨多个模型或本体执行映射)”的美国专利申请,这两个申请转让给同一受让人并且它们的全部内容在此纳入作为参考。
技术领域
本发明一般地涉及用于信息和数据管理的方法和系统。更具体地说,本发明涉及用于集成和查询结构化和非结构化数据的方法和系统。
背景技术
在许多应用中,无缝访问含有结构化和非结构化数据(例如,文本)的源中的信息变得更为重要。现有访问结构化和非结构化数据的方法一般分为两类。
第一类涉及使用通用查询接口,例如关键字查询或结构化查询。但是,单独查询每种源类型,即,针对结构化数据源和非结构化数据源执行独立查询。
尽管此类别中的多数技术可以根据结构化数据执行对关键字查询(当前盛行的非结构化文本查询接口)的评估,但是例如在Liu等人于2007年7月23日发表于WebDB的文献“Answering Structured Queries on Unstructured Data(回答关于非结构化数据的结构化查询)”中提出了一种使用结构化查询(例如,SPARQL)同时访问结构化和非结构化数据的技术。作者提出在无需根据结构化源做出任何转换的情况下发出结构化查询。根据Liu的理论,在首先转换为关键字查询之后,还使用标准的信息检索技术根据非结构化数据评估结构化查询。
第一类技术在用户接口层提供便利的集成,即,包含单个查询范例。但是,这些技术仅在数据层提供浅层次的集成;也就是说,没有跨结构化和非结构化源建立相关实体之间的连接。因此,在证据或支持数据分散于结构化和非结构化源中的情况下,不太可能检索完整的回答。
第二类涉及使用信息提取技术从非结构化数据提取结构化数据。因此,简化了同时无缝访问结构化和非结构化数据的问题,以便只访问结构化数据。
在根据公知的预定义架构(schema)执行信息提取阶段的情况下,第二类技术可以解决第一类技术的缺点。换言之,该信息提取阶段将包括从文本数据提取一组预定义的关键类型。尽管可以根据此类技术执行预定义架构与其它结构化架构之间的映射,但是,如果信息提取阶段未提供对固定关系类型集合的限制,则从非结构化数据产生的结构化数据将处于与其它可用结构化数据分离的状态。
发明内容
根据本发明的一方面,提供一种查询和集成结构化和非结构化数据的计算机实现的方法。所述方法包括:接收使用开域信息提取系统从第一非结构化数据集合提取的实体信息,其中所述实体信息包括所述第一非结构化数据集合的第一实体与第二实体之间的关系信息;根据所述关系信息识别模式(pattern)并根据所述模式创建所述第一非结构化数据集合的架构(schema);以及如果所创建架构的元素与第二非结构化数据集合的实体或现有结构化数据集合的架构元素之间存在足够的整体相似度,则将所创建架构的所述元素与(i)所述第二非结构化数据集合的所述实体或(ii)所述现有结构化数据集合的所述架构元素相关联,从而产生所创建架构的所述元素与所述第二非结构化数据集合的所述实体或所述现有结构化数据集合的所述架构元素之间的链接(link)。
根据本发明的另一方面,提供一种用于查询和集成结构化和非结构化数据的计算机实现的系统。所述系统包括:接收设备,其被配置为接收使用开域信息提取系统从第一非结构化数据集合提取的实体信息,其中所述实体信息包括所述第一非结构化数据集合的第一实体与第二实体之间的关系信息;模式识别设备,其被配置为根据所述关系信息识别模式并根据所述模式创建所述第一非结构化数据集合的架构;以及元素关联设备,其被配置为在所创建架构的元素与第二非结构化数据集合的实体或现有结构化数据集合的架构元素之间存在足够的整体相似度的情况下,将所创建架构的所述元素与(i)所述第二非结构化数据集合的所述实体或(ii)所述现有结构化数据集合的所述架构元素相关联,从而产生所创建架构的所述元素与所述第二非结构化数据集合的所述实体或所述现有结构化数据集合的所述架构元素之间的链接。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310231310.X/2.html,转载请声明来源钻瓜专利网。