[发明专利]大数据加速结构的构建方法有效

申请号：	201710817537.0	申请日：	2017-09-12
公开（公告）号：	CN107609105B	公开（公告）日：	2020-07-28
发明（设计）人：	段贵多;罗光春;田玲;秦科	申请（专利权）人：	电子科技大学
主分类号：	G06F16/28	分类号：	G06F16/28;G06F16/215;G06F16/22;G06F16/2458
代理公司：	成都希盛知识产权代理有限公司 51226	代理人：	濮云杉;杨冬
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及大数据加速结构的构建方法，包括：A.数据预处理，形成符合运算过程的数据集；B.聚类处理，并计算类别内部的记录间的相似度，根据聚类算法的分组结果，使组内最相似的记录在空间距离最小；C.将事务属性、事务属性权重和事务记录按照三级索引建立映射关系，此过程循环进行，直到所有数据映射完成；D.初始化压缩索引结构、事务属性权重索引和事务属性，确定连续记录的共享属性权值的范围，遍历倒排索引映射结构，将共享事务属性权值下的连续记录通过行程压缩算法进行压缩。本发明能够快速建立大数据关联分析的加速结构，非常明显的加快了模型的处理速度和数据加载速度。
搜索关键词：	数据加速结构构建方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

大数据加速结构的构建方法，其特征包括：A.数据预处理：对原始数据进行数据清理、数据集成和数据转换，形成符合运算过程的数据集；B.聚类处理：对预处理后的数据进行聚类，聚类完成后通过汉明距离计算类别内部的记录间的相似度，并对所述记录重新排序，根据聚类算法的分组结果，在每个分组内分别进行记录相似度的计算，使组内最相似的记录在空间距离最小；C.倒排索引映射结构：初始化索引文件、属性权重索引项和属性索引项，提取排序后数据的属性以及属性权值列表，然后进行倒排索引结构的构建，将事务属性、事务属性权重和事务记录按照三级索引建立映射关系，此过程循环进行，直到所有数据映射完成；D.行程压缩：初始化压缩索引结构、事务属性权重索引和事务属性，确定连续记录的共享属性权值的范围，遍历倒排索引映射结构，将共享事务属性权值下的连续记录通过行程压缩算法进行压缩。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于电子科技大学，未经电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710817537.0/，转载请声明来源钻瓜专利网。

上一篇：根据视频图像素材查找相关视频的方法和系统
下一篇：一种相似文章查找方法、装置、设备及存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]大数据加速结构的构建方法有效

专利文献下载