[发明专利]一种基于智慧数据平台的数据集成方法有效
申请号: | 202110697307.1 | 申请日: | 2021-06-23 |
公开(公告)号: | CN113434693B | 公开(公告)日: | 2023-02-21 |
发明(设计)人: | 付蔚;张棚;刘庆;吴志强;李正;胡灿伟;冯建强;段绪伟;袁驰;陈建波;杨宇;彭霞;段然 | 申请(专利权)人: | 重庆邮电大学工业互联网研究院;重庆冠方智慧医疗科技有限公司;联通数字科技有限公司;段然 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/33 |
代理公司: | 北京同恒源知识产权代理有限公司 11275 | 代理人: | 杨柳岸 |
地址: | 401120 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 智慧 数据 平台 集成 方法 | ||
1.一种基于智慧数据平台的数据集成方法,其特征在于:包括以下步骤:
S1:对数据进行语义链接,构建一个能够充分利用异构数据的全局信息视图的知识超图;步骤S1具体包括以下步骤:
S11:使用基于OBDI范式和超图的虚拟数据集成;所述基于OBDI范式和超图的虚拟数据集成体系包括语义层和数据层,其中:
语义层,表示本体,用于提供感兴趣领域的正式和高级表示;对于每个数据集,通过生成RDF注释来使用领域本体对数据进行语义注释;
数据层,表示可用数据及其元数据;生成一个RML映射文档,包含领域本体和元数据之间的映射,具体取决于输入的格式;
基于超图的虚拟数据集成,并表示语音层和数据层之间的映射,所述映射即数据源和本体之间关系的显式表示,用于将本体上的查询转换为数据源可处理的查询;从而构建一个对应于生成的文档的映射视图超级节点;最后建立由RML映射视图超节点和各种超边组成的知识超图,对环境观测的不同视图进行语义描述;
S12:使用数据语义标注算法,将元数据中的术语与本体中的类进行关联,从而以语义一致的方式将各种资源连接在一起;所述的数据语义标注 算法,具体包括以下步骤:
S121:首先使用Onto-KIT系统提取元数据实体;
S122:在结构化和半结构化数据的情况下,通过访问他们的模式和相应的结构信息以及利用数据结构不同的包装提取元数据;
S123:利用数据语义注释算法识别相关的元数据实体;
S124:在提取出元数据实体后,利用领域本体作为知识库获取与元数据实体相对应的语义实体;
S125:如果在元数据和本体类之间没有发现匹配,利用已加载的同义词库来确定语义上相似的属性,提取一组与元数据实体相匹配的词库实体并存储在“setT”中;
S126:将每个词库实体与本体类进行匹配,并提取第一个相应的类;
S127:系统生成注释A,注释A是附加到数据集或数据集的特定部分的一种元数据形式;每个注释A=(O,C,T,S具有以下组件:O为某个本体类,T为数据项,C为O和T之间的某些关系,S为对提取数据项的源的引用;再给定一组URI引用R、一组空白节点B和一组文字L,注释a就是RDF四元组(O,C,T,S)∈(R∪B)×R×(R∪B∪L)×(R∪B),其包括元数据实体、类和数据源;整个过程对输入数据集的所有元数据实体执行;
S128:最后,系统生成包含元数据实体、类和数据源的注释;
S13:进行RML映射生成,将一个数据集作为输入,并使用本体和生成的注释生成一个RML映射文档作为输出,将元数据实体分为简单元数据和复杂元数据两类;所述的进行RML映射生成,具体包括以下步骤:
S131:对于每一个元数据,创建一个新的三元组映射;
S132:对于每个三元组映射,生成一个主题映射,所述主题映射定义为映射的资源生成惟一标识符的规则;所述主题映射将用作从这个三元组映射生成的所有RDF三元组的主题;
S133:对于每个三元组映射,生成许多谓词对象映射,对象对应元数据实体,谓词表示从本体中提取的元数据实体之间的关系,再引入另外两个规则来处理简单和复杂的元数据实体;
S134:使用rml:reference将每个简单的元数据实体映射到一个谓词对象映射和一个OWL数据或对象属性;
S135:使用谓词对象映射属性rr:parentTriplesMap,将每个复杂元数据实体映射到另一个三元组映射和一个OWL对象-属性;有助于生成更完整的映射;
S14:进行知识超图模型的构建,RML映射图记为RML_G=(V,E),其中,V是表示三元组映射的主题映射和对象映射的一组顶点,对应于RDF数据中的所有主题和对象;是一个多重集,对应于所有三元组的定向边缘RML映射;
S2:基于知识超图进行查询处理,具体包括以下步骤:
S21:解析输入SPARQL查询并使用空间RDF存储和时态RDF存储生成其架构图模式SGP;
S22:将SGP与映射视图超级节点匹配,并提取一组相关的映射视图超级节点和RML映射文档的路径;
S23:使用空间和时态RDF存储将输入SPARQL查询转换为具体的子查询;
S24:RML映射处理以RDF格式生成数据并将其存储在Buffer RDF存储中,执行子查询以获得输入SPARQL查询的结果RDF知识图;具体包括以下步骤:
S241:将提取的RML映射文档和子查询作为输入,并从处理RML映射开始,以生成RDF三元组;
S242:使用RML Mapper 9映射进程执行器解析输入映射并将其存储在内存中;对于每个三元组映射,打开在逻辑源中定义的数据源,并使用适当的库向该数据源提出已定义的迭代器查询;
S243:在接收到结果集之后,映射处理器将遍历结果中的所有特性,对于每个特性,遍历所有谓词-对象映射,并处理每个谓词-对象映射以形成所需的RDF三元组;
S244:对于每个RML映射文档,获得一个缓冲的RDF三元组存储;
S245:在不同的RDF存储上执行生成的子查询,以便从第一步中仅提取匹配SPARQL的RDF三元组,以此得到查询处理的结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学工业互联网研究院;重庆冠方智慧医疗科技有限公司;联通数字科技有限公司;段然,未经重庆邮电大学工业互联网研究院;重庆冠方智慧医疗科技有限公司;联通数字科技有限公司;段然许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110697307.1/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置