[发明专利]数据筛选策略生成方法和装置有效
申请号: | 201510367386.4 | 申请日: | 2015-06-29 |
公开(公告)号: | CN104933165B | 公开(公告)日: | 2018-06-05 |
发明(设计)人: | 刘孟焱 | 申请(专利权)人: | 努比亚技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 胡海国 |
地址: | 518057 广东省深圳市南山区高新区北环大道9018*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 筛选 数据筛选 策略生成 生成数据 样本数据 匹配 策略生成装置 方法和装置 结果计算 判定数据 终端 | ||
本发明公开了一种数据筛选策略生成方法,所述数据筛选策略生成方法包括以下步骤:获取各个样本数据的对应的第一筛选结果,以及各个所述样本数据对应筛选参数的第二筛选结果;基于所述第一筛选结果以及所述第二筛选结果计算各个筛选参数的筛选优先级;基于所述筛选优先级生成数据筛选策略。本发明还公开了一种数据筛选策略生成装置。本发明基于所述筛选优先级生成数据筛选策略,终端在进行数据筛选时,直接基于各个筛选参数的筛选优先级进行筛选,在有筛选参数不匹配时,即判定数据不匹配,筛选过程非常简便。
技术领域
本发明涉及互联网技术领域,尤其涉及一种数据筛选策略生成方法和装置。
背景技术
随着互联网的飞速发展,用户往往在互联网中可以查看到大量的数据,但在进行数据查看时数据往往排列混乱,很难查找到需要的数据。例如,用户在查找图片时,数据库中的图片参差不齐,系统在显示用户感兴趣的专题的时候,会出现很多与专题不符合的图片或者是质量较差的图片。为解决上述问题,现有技术中往往通过设置筛选参数对数据进行筛选,但筛选参数为多个时,往往需要同时计算各个筛选参数的匹配度,以确定符合的数据,筛选过程非常复杂。
发明内容
本发明的主要目的在于提出一种数据筛选策略生成方法和装置,旨在解决移动数据筛选过程复杂的技术问题。
为实现上述目的,本发明提供一种数据筛选策略生成方法,所述数据筛选策略生成方法包括以下步骤:
获取各个样本数据的对应的第一筛选结果,以及各个所述样本数据对应筛选参数的第二筛选结果;
基于所述第一筛选结果以及所述第二筛选结果计算各个筛选参数的筛选优先级;
基于所述筛选优先级生成数据筛选策略。
优选地,所述基于所述第一筛选结果以及所述第二筛选结果计算各个筛选参数的筛选优先级的步骤包括:
基于所述第一筛选结果相同的样本数据的数量计算标准样本值;
基于所述第二筛选结果相同的样本数据的数量计算各个筛选参数对应的信息熵;
基于各个所述筛选参数的信息熵以及所述标准样本值计算各个所述筛选参数对应的信息增益值;
基于所述信息增益值生成各个所述筛选参数的筛选优先级,其中所述信息增益值越大所述筛选优先级越大。
优选地,所述基于所述第一筛选结果相同的样本数据的数量计算标准样本值的公式如下:
K(P1,P2,……,Pn)=-P1 log2(P1)-P2 log2(P2)-……-Pn log2(Pn);
其中,Pn为各个样本数据中第一筛选结果相同的样本数据的个数与所述样本数据总个数的比值。
优选地,所述基于所述第一筛选结果相同的样本数据的数量计算标准样本值的步骤包括:
依次提取每个筛选参数对应的第二筛选结果;
在每次提取到每个筛选参数对应的第二筛选结果时,获取第一筛选结果相同的样本数据的数量作为第一计算值;
获取第一筛选结果相同的样本数据中第二筛选结果相同的样本数据的数量作为第二计算值;
基于所述第一计算值和第二计算值计算提取的所述筛选参数对应的信息熵;
继续提取下一筛选参数对应的第二筛选结果,直至提取完所有样本数据的筛选结果。
优选地,所述基于所述第一计算值和第二计算值计算提取的所述筛选参数对应的信息熵的计算公式如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于努比亚技术有限公司,未经努比亚技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510367386.4/2.html,转载请声明来源钻瓜专利网。