[发明专利]一种用户样本特征优化处理方法和装置在审
申请号: | 201610091834.7 | 申请日: | 2016-02-18 |
公开(公告)号: | CN107092919A | 公开(公告)日: | 2017-08-25 |
发明(设计)人: | 席炎;张柯;余舟华;漆远;杨军;李澜博;黄俊;叶伟;郭曦 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京国昊天诚知识产权代理有限公司11315 | 代理人: | 黄熊 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用户 样本 特征 优化 处理 方法 装置 | ||
技术领域
本申请涉及计算机技术领域,尤其涉及一种用户样本特征优化处理方法和装置。
背景技术
随着信息技术的不断发展,时下已经步入大数据时代,商家或企业等可通过其提供的各种服务平台收集到海量用户样本,这些用户样本中通常具有很多特征,例如用户在网络上购物消费的金额,退换货的记录,购买金融投资产品的金额,用户A和用户B之间关系的紧密程度等,通过对这些用户样本的特征进行处理,进而输入模型进行训练,最终得到能够预测出新的用户行为的分类模型。得出分类模型之后,将新的用户样本经过处理输入上述分类模型,经过模型计算即可对该用户样本进行预测,例如,预测该用户为信用良好或信用较差等。
对用户样本的特征进行处理时,通常是对特征值进行处理以得到该特征的新取值,目前常用的处理方法为最大值最小值处理法,其步骤如下:第一步,统计出用户样本在特征上的最大值与最小值;第二步,利用最大值最小值法将每个用户样本的该特征的取值进行处理,由此将特征的新取值范围映射到了0到1之间。
利用上述最大值最小值处理法对用户样本特征值处理,容易使处理后特征的新取值不能贴合正样本浓度的变化趋势,最终有可能导致模型在训练时不能很好地学习出该特征的线性规律,从而降低模型的学习效果,导致模型的预测精度下降。
发明内容
基于上述技术问题,本申请实施例提供一种用户样本特征优化处理方法和装置,用于对用户样本特征优化处理,进而使构造出的特征值更加贴合正样本浓度的变化趋势。
本申请实施例采用下述技术方案:
一种用户样本特征优化处理方法,包括:确定用户样本集内用户样本的待优化特征,所述用户样本集中包括有正样本;根据各个用户样本的所述特征的取值以预定的N个分位点将用户样本集内的用户样本划分到N+1个区间,N为大于1的正整数;对于N+1个区间中的每一个区间,均计算每一个区间中正样本的数量占区间整体用户样本数量的比值;将每一个区间中计算出的比值确定为该区间内各用户样本的所述特征的新取值。
优选地,将每一个区间中计算出的比值确定为该区间内各用户样本的所述特征的新取值之后,所述方法还包括:对用户样本的所述特征的新取值进行归一化处理。
优选地,对用户样本的所述特征的新取值进行归一化处理,具体包括:确定所述特征的新取值中的最大值与最小值;对所述特征中的每一个新取值,均按如下公式进行处理,将处理后的数值作为所述特征的取值:
其中,Fnew为进行处理后的数值,Fold为进行处理之前所述特征的新取值,Fmax、Fmin分别为所述特征新取值中的最大值与最小值。
优选地,将每一个区间中计算出的比值确定为该区间内各用户样本的所述特征的新取值之前,所述方法还包括:选取出每个区间中的比值和所述预定分位点所确定的预设值之间不满足线性关系的特征。
优选地,根据各个用户样本的所述特征的取值以预定的N个分位点将用户样本集内的用户样本划分到N+1个区间,具体包括:根据各个用户样本的所述 特征的取值进行排序;将N个分位点上对应的取值作为边界,将用户样本集内的用户样本分成N+1个区间。
优选地,在对用户样本的所述特征的新取值进行归一化处理之后,所述方法还包括,将处理后的用户样本输入线性模型进行训练。
一种用户样本特征优化处理装置,包括:特征确定模块、区间划分模块、比值计算模块和特征值确定模块,其中:所述特征确定模块,用于确定用户样本集内用户样本的待优化特征,所述用户样本集中包括有正样本;所述区间划分模块,用于根据各个用户样本的所述特征的取值以预定的N个分位点将用户样本集内的用户样本划分到N+1个区间,N为大于1的正整数;所述比值计算模块,用于对于N+1个区间中的每一个区间,均计算每一个区间中正样本的数量占区间整体用户样本数量的比值;所述特征值确定模块,用于将每一个区间中计算出的比值确定为该区间内各用户样本的所述特征的新取值。
优选地,所述装置还包括归一化模块,其中:所述归一化模块,用于对用户样本的所述特征的新取值进行归一化处理。
优选地,所述归一化模块具体包括确定子单元和处理子单元,其中:所述确定子单元,用于确定所述特征的新取值中的最大值与最小值;所述处理子单元,用于对所述特征中的每一个新取值,均按如下公式进行处理,将处理后的数值作为所述特征的取值:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610091834.7/2.html,转载请声明来源钻瓜专利网。