[发明专利]一种数据处理方法以及装置在审
申请号: | 202011391497.6 | 申请日: | 2020-12-02 |
公开(公告)号: | CN112529151A | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 郭慧丰;陈渤;唐睿明;李震国;何秀强 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06K9/62 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 陈松浩 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 以及 装置 | ||
本申请实施例提供了一种数据处理方法以及装置,用于更好地学习连续特征中每个特征值的向量表达值。具体包括:该数据处理装置从样本数据中获取连续特征;然后通过离散化模型对该连续特征进行离散化处理得到该连续特征对应的N个离散化概率值,其中,所述N个离散化概率值对应于预设的N个基向量表达值,该N为大于1的整数;最后,该数据处理装置根据该N个离散化概率值和该N个基向量表达值确定该连续特征的一个向量表达值。
技术领域
本申请涉及人工智能领域,尤其涉及一种数据处理方法以及装置。
背景技术
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人,自然语言处理,计算机视觉,决策与推理,人机交互,推荐与搜索,AI基础理论等。
目前通常是通过神经网络实现AI的各种功能,例如自然语言处理、图像处理、语音处理等。随着AI技术的发展,AI的功能逐渐多样化。但是这些功能的实现都是基于输入数据和标签,通过梯度下降等优化方法训练机器学习模型的参数,当模型参数收敛之后,可利用该模型来完成未知数据的预测。因此输入的数据和标签的处理可以看作是AI的基础。基于数据类型的差异,待输入的数据可以分为连续特征和离散特征。目前对于离散特征一般使用独热编码(one-hot encoding)。而针对连续特征,常用的特征处理方法有类别化、归一化和离散化三类,其中离散化方法被工业界广泛常用,包括等频离散化、等距离散化、Logarithms方法和基于树模型等方法。
目前的连续特征处理方法是通过离散化策略(如启发式规则或模型)将连续特征值离散化到不同的区间(如桶,bucket)中,将区间的编号代替原本的特征值,然后使用和离散特征相同的方式获取向量化表示。但是该方法通常需要大量的人力和时间进行离散化策略尝试和优化,才能得到最优的离散化规则或模型,进而获取最终的embedding向量表示。同时在这些离散化策略中,均存在如下缺点:两阶段(two-phase problem,TPP)、相近值却不同表示(similar value but dis-similar embedding,SBD)、不同值却相同表达(dissimilar value but same embedding,DBS)。例如:我们将年龄特征分为若干组,其中,18至40为一组,40至60为一组,年龄差距很大的18和40将使用同一个embedding,无法体现二者的差异,年龄接近的40和41却分到了两个组,embedding很可能差异巨大。因此现有方案中连续特征的向量表达值不够。
发明内容
本申请实施例提供了一种数据处理方法以及装置,用于更好地学习连续特征中每个特征值的向量表达值,使其具有更好的表达能力。
第一方面,本申请实施例提供一种数据处理方法,具体包括:该数据处理装置从样本数据中获取连续特征;然后通过离散化模型对该连续特征进行离散化处理得到该连续特征对应的N个离散化概率值,其中,所述N个离散化概率值对应于预设的N个基向量表达值,该N为大于1的整数;最后,该数据处理装置根据该N个离散化概率值和该N个基向量表达值确定该连续特征的一个向量表达值。
本实施例中,该连续特征为该样本数据中具有连续统计特征值的特征数据。一种示例性方案中,该连续特征包括但不限于推荐模型中的年龄特征、点击量特征和分数特征。其中,点击量特征的取值可以是整个正整数的取值范围,且取值为连续的特征,比如取值为1、2、3、4、……。而年龄特征的取值可以是0至现有已记录的最大年龄。而样本数据中的离散特征通常只可以按一定顺序一一列举,例如性别特征,其取值只有男或女。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011391497.6/2.html,转载请声明来源钻瓜专利网。