[发明专利]一种HDFS的存储结构优化方法有效
| 申请号: | 201711337752.7 | 申请日: | 2017-12-14 |
| 公开(公告)号: | CN107944041B | 公开(公告)日: | 2021-11-09 |
| 发明(设计)人: | 何鑫 | 申请(专利权)人: | 成都雅骏新能源汽车科技股份有限公司 |
| 主分类号: | G06F16/18 | 分类号: | G06F16/18;G06F16/13;G06F11/14 |
| 代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 刘世权 |
| 地址: | 610000 四川省成都市天府新区新*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种HDFS存储结构的优化方法,具体实现步骤如下:第一步,分别对数据文件分割的数据块进行指纹计算;第二步,利用Hash函数完成指纹匹配,若出现相同值,则判定该块重复;第三步,重复块存储对应的索引,新数据块进行存储和更新指纹库流程;第四步,更新文件的元数据信息;第五步,通过CubeHash函数计算Hash值,并引入关键词提取策略、特征向量权值计算、余弦系数法进行数据的相同和相似性判断;第六步,根据标签删除重复数据。本发明设计合理,实现了标签化去重,使得HDFS的存储结构得到优化。 | ||
| 搜索关键词: | 一种 hdfs 存储 结构 优化 方法 | ||
【主权项】:
一种HDFS存储结构的优化方法,其特征在于,具体实现步骤如下:第一步,分别对数据文件分割的数据块进行指纹计算;第二步,利用Hash函数完成指纹匹配,若出现相同值,则判定该块重复;第三步,重复块存储对应的索引,新数据块进行存储和更新指纹库流程;第四步,更新文件的元数据信息;第五步,通过CubeHash函数计算Hash值,并引入关键词提取策略、特征向量权值计算、余弦系数法进行数据的相同和相似性判断;第六步,根据标签删除重复数据。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都雅骏新能源汽车科技股份有限公司,未经成都雅骏新能源汽车科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711337752.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种歌词的显示方法和移动终端
- 下一篇:一种IOP平台的表格导出方法





