[发明专利]大数据的非精准排序方法在审
申请号: | 201810192740.8 | 申请日: | 2018-03-09 |
公开(公告)号: | CN108416025A | 公开(公告)日: | 2018-08-17 |
发明(设计)人: | 李凌瑶;张业岭;蒋可安;张菁菁;王宁骏;胡天然 | 申请(专利权)人: | 王宁骏;张菁菁;胡天然;张业岭;蒋可安;李凌瑶 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海骁象知识产权代理有限公司 31315 | 代理人: | 林炜 |
地址: | 200233 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种大数据的非精准排序方法,涉及数据处理技术领域,所解决的是海量数据检索的技术问题。该方法从目标数据库中随机截取一段数据样本,再根据样本构建样本值数组、样本频数数组,利用样本值数组存放样本的参考数值,利用样本频数数组记录各个参考数值的出现频率;并对样本值数组及样本频数数组进行优化;然后再构建一个累计值数组,并根据样本频数数组为累计值数组赋值;然后利用样本值数组检测待排序的目标数据在目标数据库中的排列位置,根据累计值数组中的对应元素,计算目标数据在目标数据库中的排序百分比值,从而得出目标数据在目标数据库中的排序位置。本发明提供的方法,适用于不需要精确查询排序结果的场景。 | ||
搜索关键词: | 数组 样本 目标数据库 频数 排序 目标数据 大数据 构建 海量数据检索 数据处理技术 计算目标 排列位置 排序结果 排序位置 数组记录 参考 段数据 截取 查询 场景 检测 优化 | ||
【主权项】:
1.一种大数据的非精准排序方法,其特征在于,具体步骤如下:1)从目标数据库中随机截取一段包含有N个数据的数据样本Y,并设定一个计算精度α,1E+8(i),如果Ln(i)<η×N/m,则令
令N=N‑Ln(i)/2,令m=m‑1,并删除样本值数组Lv中的第i个元素Lv(i),并删除样本频数数组Ln中的第i个元素Ln(i),η的取值为0.1;规则B:对于样本频数数组Ln中的任意一个元素Ln(i),如果Ln(i)>λ×N/m,则在样本值数组Lv的第i个元素Lv(i)及第i+1个元素Lv(i+1)之间插入T个元素,在样本频数数组Ln的第i个元素Ln(i)及第i+1个元素Ln(i+1)之间插入T个元素,并为样本值数组Lv中所插入的T个元素赋值,为样本频数数组Ln中所插入的T个元素赋值,并令m=m+T;其中,
λ的取值为10;样本值数组Lv中所插入的T个元素的赋值公式为:Lv'(i+t)=Lv(i)+(Lv(i+1)‑Lv(i))/T其中,Lv'(i+t)为插入样本值数组Lv中的第t个元素,Lv(i)、Lv(i+1)分别是未插入T个元素时的样本值数组Lv中的第i个元素、第i+1个元素;样本频数数组Ln中所插入的T个元素的赋值方法为:统计数据样本Y中的大于Lv'(i+t)并且小于Lv'(i+t+1)的数据的数量,并将统计的数量值赋给Ln'(i+t);其中,Ln'(i+t)为插入样本频数数组Ln中的第t个元素,Lv'(i+t)为插入样本值数组Lv中的第t个元素,Lv'(i+t+1)为Lv'(i+t)后序相邻的元素;6)构建一个m维的累计值数组ALn,为累计值数组ALn中的每个元素赋值,赋值计算公式为:
其中,ALn(i)为累计值数组ALn中的第i个元素;7)获取待排序的目标数据Y(k),在样本值数组Lv中查找满足条件Lv(i)<Y(k)<Lv(i+1)的两个相邻元素Lv(i)、Lv(i+1),再根据所找到的元素Lv(i)在样本值数组Lv中的位置i,从累计值数组ALn中找到处于位置i处的元素ALn(i),再根据所找到的元素ALn(i),计算目标数据Y(k)在目标数据库中的排序百分比值,从而得出目标数据Y(k)在目标数据库中的排序位置,排序百分比值的具体计算公式为:Res(k)=100×ALn(i)/N其中,Res(k)为目标数据Y(k)在目标数据库中的排序百分比值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于王宁骏;张菁菁;胡天然;张业岭;蒋可安;李凌瑶,未经王宁骏;张菁菁;胡天然;张业岭;蒋可安;李凌瑶许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810192740.8/,转载请声明来源钻瓜专利网。