[发明专利]数据处理的方法和装置有效
申请号: | 201310239700.1 | 申请日: | 2013-06-17 |
公开(公告)号: | CN103309984A | 公开(公告)日: | 2013-09-18 |
发明(设计)人: | 杨宜;邹永强;卢柯;陈峥;伍海君;于涛;李璐鑫;吴家旭;崔精兵;辛调琴;邹赞 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 滕一斌 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 | ||
1.一种数据处理的方法,其特征在于,所述方法包括:
根据主键对样本进行排序,所述主键包括特征序号和样本序号,所述主键对应的列值为样本的特征值;
以所述主键和特征值为输入键值对,使用第一算法模型计算得到每个类别中的每个特征的统计量,并将特征序号和统计量作为输出键值对输出;
使用第二算法模型对所述输出键值对进行计算,得到每个特征对类别的贡献值,根据所述贡献值进行特征选取。
2.根据权利要求1所述的方法,其特征在于,根据主键对样本进行排序,包括:
当所述主键由特征序号和样本序号拼接而成时,先按照特征序号对样本进行排序,然后对于相同特征序号的样本按照样本序号进行排序;或者,
当所述主键由样本序号和特征序号拼接而成时,先按照样本序号对样本进行排序,然后对于相同样本序号的样本按照特征序号进行排序。
3.根据权利要求1所述的方法,其特征在于,使用第一算法模型计算得到每个类别中的每个特征的统计量,包括:
使用第一算法模型,对每个类别的样本进行特征值统计,和/或,对每个类别的样本进行特征出现次数的统计。
4.根据权利要求3所述的方法,其特征在于,对每个类别的样本进行特征值统计,包括:
对每个类别,计算属于该类别的所有样本的特征值之和;和/或,
对每个类别,计算属于该类别的所有样本的特征值的平方之和。
5.根据权利要求3所述的方法,其特征在于,对每个类别的样本进行特征出现次数的统计,包括:
在每个类别中,对每个特征记录所述特征在该类别的所有样本中特征值不为零的次数,作为所述特征在该类别的样本中出现的次数。
6.根据权利要求1所述的方法,其特征在于,使用第二算法模型对所述输出键值对进行计算,得到每个特征对类别的贡献值,包括:
使用第二算法模型,统计所有类别的样本的特征值和/或统计所有类别的样本中特征出现的次数,并根据统计的结果计算每个特征对类别的贡献值。
7.根据权利要求1所述的方法,其特征在于,根据所述贡献值进行特征选取,包括:
按照贡献值从大到小确定指定个数个贡献值,在所有特征中选出所述确定的贡献值对应的特征。
8.一种数据处理的装置,其特征在于,所述装置包括:
排序模块,用于根据主键对样本进行排序,所述主键包括特征序号和样本序号,所述主键对应的列值为样本的特征值;
第一处理模块,用于以所述主键和特征值为输入键值对,使用第一算法模型计算得到每个类别中的每个特征的统计量,并将特征序号和统计量作为输出键值对输出;
第二处理模块,用于使用第二算法模型对所述输出键值对进行计算,得到每个特征对类别的贡献值,根据所述贡献值进行特征选取。
9.根据权利要求8所述的装置,其特征在于,所述排序模块包括:
第一排序单元,用于当所述主键由特征序号和样本序号拼接而成时,先按照特征序号对样本进行排序,然后对于相同特征序号的样本按照样本序号进行排序;或者,
第二排序单元,用于当所述主键由样本序号和特征序号拼接而成时,先按照样本序号对样本进行排序,然后对于相同样本序号的样本按照特征序号进行排序。
10.根据权利要求8所述的装置,其特征在于,所述第一处理模块包括:
统计单元,用于使用第一算法模型,对每个类别的样本进行特征值统计,和/或,对每个类别的样本进行特征出现次数的统计。
11.根据权利要求10所述的装置,其特征在于,所述统计单元用于:
对每个类别,计算属于该类别的所有样本的特征值之和;和/或,
对每个类别,计算属于该类别的所有样本的特征值的平方之和。
12.根据权利要求10所述的装置,其特征在于,所述统计单元用于:
在每个类别中,对每个特征记录所述特征在该类别的所有样本中特征值不为零的次数,作为所述特征在该类别的样本中出现的次数。
13.根据权利要求8所述的装置,其特征在于,所述第二处理模块包括:
计算单元,用于使用第二算法模型,统计所有类别的样本的特征值和/或统计所有类别的样本中特征出现的次数,并根据统计的结果计算每个特征对类别的贡献值。
14.根据权利要求8所述的装置,其特征在于,所述第二处理模块包括:
选取单元,用于按照贡献值从大到小确定指定个数个贡献值,在所有特征中选出所述确定的贡献值对应的特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310239700.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种面向自然语言的位置信息提取方法
- 下一篇:一种能量编码的查询方法及装置