[发明专利]一种基于最大区域网格的语义数据存储与检索的方法及装置在审
申请号: | 202010889901.6 | 申请日: | 2020-08-28 |
公开(公告)号: | CN112148830A | 公开(公告)日: | 2020-12-29 |
发明(设计)人: | 李彭伟;李亚钊;冯燕来;李子;欧阳慈;阚凌志;李文强;陈娜;卢丹;周兆昕 | 申请(专利权)人: | 中国电子科技集团公司第二十八研究所 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/35;G06F16/36;G06F40/30 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 胡建华 |
地址: | 210000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 最大 区域 网格 语义 数据 存储 检索 方法 装置 | ||
1.一种基于最大区域网格的语义数据存储与检索的方法,其特征在于,包括:
步骤一、从待处理的语义数据中提取语义实体,并对语义实体进行数据编码,得到语义图;
步骤二、利用所得到的语义图进行最大网格搜索挖掘,获取包含最大连通网格的实体顶点的集合,并根据所述集合得到最大连通网格的索引;
步骤三、对最大区域网格内的实体顶点进行聚类处理,其中,聚类结果中包括:构建簇间关系表、簇描述表和簇中心顶点表;
步骤四、利用所述聚类结果,输入通用的检索条件,利用步骤二和步骤三建立的索引与聚类过程中存储的信息,利用条件匹配处理检索请求。
2.根据权利要求1所述的方法,其特征在于,所述步骤一包括:
根据所述语义实体生成哈希码,并建立被处理的语义实体与各自的哈希码映射关系;
利用所得到的哈希码生成RDF语义图,其中,在所述RDF语义图中,各个哈希码按照语义索引结构排列。
3.根据权利要求2所述的方法,其特征在于,哈希码生成的系数为31,所得到的哈希码表示为:h(s),其中,n表示s的长度,s表示整个需要哈希的数据内容,i为正整数且表示s的第i个要素。
4.根据权利要求1所述的方法,其特征在于,所述步骤二中,利用所得到的语义图进行最大网格搜索挖掘,包括:
对最大网格集合(CMC)和可扩展的候选顶点集合(SUBG)进行初始化,其中,SUBG=V,其中,V表示所有顶点组成的集合;
选择一个顶点v,并计算CMC=CMC∪v且SUBG=SUBG∩NB(v)的结果,并对集合CMC迭代扩展直到满足其中,v∈SUBG,NB(v)表示顶点v的相邻顶点集合。
5.根据权利要求4所述的方法,其特征在于,所述步骤二中,获取包含最大连通网格的实体顶点的集合,并根据所述集合得到最大连通网格的索引,包括:
对V中的元素所指向的每个最大网格进行数值编码,得到每个网格的GID,其中,一个网格的GID表示这一个网格的唯一的数字编号;
将网格内每个顶点赋予唯一ID,针对每一个顶点的,将这一个顶点的ID作为主键,再将包含这一个顶点的所有最大区域网格的GID集合作为值,构建键值对集合EGset。
6.根据权利要求1所述的方法,其特征在于,所述步骤三包括:
遍历各个网格后,将ck赋值为网格内的顶点数量,其中,ck表示聚类结果簇的数目;
将初始簇中心点设定为最大网格内的第ck个顶点,对聚类得到的簇对应唯一CID,并记录每个簇的中心顶点ID,其中,从网格中所得到的簇采用所在网格的CID;
通过ECARANSP算法完成聚类后,依次构建簇间关系表、簇描述表和簇中心顶点表。
7.根据权利要求6所述的方法,其特征在于,所述簇间关系表用于存储各簇之间的邻接顶点,其中包括:描述网格内顶点属性的EVID、描述簇属性的ClusterID和描述簇内顶点集合属性的AEVIDS。
8.根据权利要求6所述的方法,其特征在于,所述簇描述表用于存储经过ECARANSP算法聚类后得到的簇及其内部的所有顶点,其中包括:描述簇编码的ClusterID和描述簇内所有顶点集合的EVIDs。
9.根据权利要求6所述的方法,其特征在于,所述簇中心顶点表用于管理簇中心以及与簇中心邻接的顶点,其中包括:描述簇ID属性的ClusterID、描述簇中心顶点的属性CenterEVID和描述与簇中心邻接顶点集合的属性AEVIDS。
10.一种基于最大区域网格的语义数据存储与检索的装置,其特征在于,包括:
预处理模块,用于从待处理的语义数据中提取语义实体,并对语义实体进行数据编码,得到语义图;
索引维护模块,用于利用所得到的语义图进行最大网格搜索挖掘,获取包含最大连通网格的实体顶点的集合,并根据所述集合得到最大连通网格的索引;
聚类模块,用于对最大区域网格内的实体顶点进行聚类处理,其中,聚类结果中包括:构建簇间关系表、簇描述表和簇中心顶点表;
检索处理模块,用于利用所述聚类结果,处理检索请求。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第二十八研究所,未经中国电子科技集团公司第二十八研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010889901.6/1.html,转载请声明来源钻瓜专利网。