[发明专利]一种为图数据的存储和索引设计代价评估模型的方法在审
申请号: | 202210598923.6 | 申请日: | 2022-05-30 |
公开(公告)号: | CN115099309A | 公开(公告)日: | 2022-09-23 |
发明(设计)人: | 韩珣;杨曼;燕钰;王宏志;高建杰 | 申请(专利权)人: | 四川警察学院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/21;G06F16/22;G06N3/04 |
代理公司: | 成都其高专利代理事务所(特殊普通合伙) 51244 | 代理人: | 廖曾 |
地址: | 646099 *** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 存储 索引 设计 代价 评估 模型 方法 | ||
本发明公开了一种为图数据的存储和索引设计代价评估模型的方法,实现多样化图数据的高效存储索引推荐,可以为不同的图数据应用需求提供个性化的存储和索引推荐,从而帮助用户更好地利用不同数据库的优势,提高查询效率,包括下述步骤:1)特征向量构造,对于不同的数据集和负载,提取数据集和负载的主要特征,并根据存储方案信息,构造包括数据库信息,存储方案,数据集信息和负载信息在内的特征向量;2)训练集生成,根据特征向量生成对应的样本数据,对于每条样本向量映射为对应的数据集和负载到相应的数据库中进行打标签操作,带有负载执行时间的样本则用于构造训练集;3)评估模型设计,利用神经网络构建能够进行主动学习的代价评估模型。
技术领域
本发明涉及图数据处理技术等领域,具体的说,是一种为图数据的存储和索引设计代价评估模型的方法。
背景技术
图数据是具有节点或边等图结构特点的数据,其主要特点为数据集规模通常比较大、数据结构类型多变、应用的场景比较丰富、对于用户来说不同场景下有着不同的查询操作需求。图数据在很多应用和领域变得越来越重要,例如生物数据、知识图谱和社交网络等。随着图数据的逐渐流行扩大和复杂化,如何更高效智能地管理图数据是如今被广泛关注和研究的重点。对于图数据来说,除了原生的图数据库外,在非原生的数据库上的存储也是非常热门的话题,例如对属性图的存储的研究和对RDF数据存储的研究。
而目前主流的单数据模型引擎对于图数据的管理都只能提供部分应用场景上的高效查询性能。以原生的图数据库和关系数据库为例,图数据库因为其独特的图算法优化,使得它在很多图数据处理场景下有较好的性能。然而,很多图数据引擎都因为不够成熟而在实际应用中有着大大小小不同的问题。对关系型数据库来说,依靠其拥有几十年工程积累的优势,可以利用其良好的可拓展性来构建图数据库,但其也不是万能的。本质上是图数据的数据有着高度的关联性,因此在关系数据库中经常会有大量的随机访问,而关系数据库中是靠连接来实现不同数据之间的关联,所以面对应用场景丰富的图数据,在性能方面无法得到保证。
由于图数据在存储方面有各式各样的选择,且对于不同的数据库其特点和优势也不尽相同。所以近年来有一些对图数据的不同数据库的对比评测。例如对Mysql和neo4j分别从成熟度、易用性,灵活性和安全性对原生图数据库和关系数据库做了对比;通过构建的包含维护者、许可证、平台、实现语言、特性、成本、事务性能、内存和磁盘存储、单节点与分布式、基于文本的查询语言支持、内建算法的支持以及所支持的主要遍历和查询风格等内容的评估矩阵,利用有2.56亿条边的合成图上对各种图分析和存储平台进行了测评;还有从数据存储特点数据结构和ACID性质方面对Nosql图数据库的比较。对于不同类型和不同结构的图数据来说,采用不同数据模型进行存储,可以获得更高的查询效率。
现有的对于不同图数据库的对比都没有考虑数据集和负载这些与应用场景密切相关的信息,只是基于数据库层面的系统评估,没有对不同存储方案的评估。且这些对比都是基于人工实现的,没有设计自动化的评估模型。
发明内容
本发明的目的在于提供一种为图数据的存储和索引设计代价评估模型的方法,实现多样化图数据的高效存储索引推荐,通过提取数据和负载的特征进行模型训练,可以为不同的图数据应用需求提供个性化的存储和索引推荐,从而帮助用户更好地利用不同数据库的优势,提高查询效率。
本发明通过下述技术方案实现:一种为图数据的存储和索引设计代价评估模型的方法,包括下述步骤:
1)特征向量构造,对于不同的数据集和负载,提取数据集和负载的主要特征,并根据存储方案信息,构造包括数据库信息,存储方案,数据集信息和负载信息在内的特征向量;
2)训练集生成,根据特征向量生成对应的样本数据集,对于每条样本向量映射为对应的数据集和负载到相应的数据库中进行打标签操作,带有负载执行时间的样本则用于构造训练集;
3)评估模型设计,利用神经网络构建能够进行主动学习的代价评估模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川警察学院,未经四川警察学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210598923.6/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置