[发明专利]回归预测方法及装置无效

申请号：	201110339224.1	申请日：	2011-11-01
公开（公告）号：	CN102385719A	公开（公告）日：	2012-03-21
发明（设计）人：	李锐;张帅;王斌;李鹏;张冠元;鲁凯	申请（专利权）人：	中国科学院计算技术研究所
主分类号：	G06Q10/04	分类号：	G06Q10/04
代理公司：	北京泛华伟业知识产权代理有限公司 11280	代理人：	王勇
地址：	100190 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	回归预测方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于统计回归分析和预测，尤其涉及用于统计机器学习中的回归预测方法及装置。

背景技术

回归分析(Regression Analysis)是一种统计学上对数据进行分析的方法，主要是希望探讨数据之间是否有一种特定关系。回归分析是建立因变量Y(response variables)或称依变量(dependent variables)与自变量X(predictors)或称独变量(independent variables)之间关系的模型。在统计机器学习里，回归预测方法主要用于对数据做预测和分析。其中X一般是多维的数据而Y一般是数值型数据，称为多元回归。根据回归方程又可以分为线性回归，非线性回归等。最基本的线性回归公式：Y＝βX+β₀。

现有的回归预测方法存在着以下两个问题：首先，由于数据的缺失或未做特征选择，使得有时原始数据点本身可能不包含足够的信息来对输出进行回归预测(该问题可以简称为特征缺失)；其次，由于数据点X的每个维度上的数据可能并非数值型，其可能不满足数值的变化规律及变化范围，如周期型的角度，布尔型的性别等，枚举型的颜色等，这在一定程度上影响了回归的效果和预测的精度(该问题可以简称为特征异构)。为了解决以上问题，现有的方法都是依靠经验来对特征进行简单的格式转换，不具有规范性和扩充性。当数据集发生稍许变化的时候需要改变格式转换方法。因此不能很好的解决特征缺失和特征异构的问题。

另外，随着云计算技术的发展，出现了用于进行大规模并行处理数据的平台，例如MapReduce、Hadoop等。又有学者研究在这些平台上实现回归预测方法，以期望利用这些云计算平台的并行性来提高回归预测的性能。例如，基于MapReduce的局部线性加权回归LWLR(locally weighted linear regression)，其根据新输入的待预测数据点，动态地在原数据集里找到一些近邻，用近邻数据做局部的线性回归得出预测函数，也就是说对每个待预测数据点都需要做近邻查找和回归预测。首先根据自变量的相似度(也可以称为距离)，找到待预测数据点的近邻；然后根据近邻进行曲线拟合，得出预测函数；最后通过预测函数对待测点的输出值做出预测。

LWLR的好处在于便于并行，并且是根据近邻数据做预测，考虑了自变量之间的关系，可以一定程度上提高预测的准确率。但其由于跳过了对矩阵求逆的阶段，因此无法考虑原数据点X的因变量Y之间以及原数据点X和待预测数据点x_new的输出y_new之间的关系。也就是说对于待预测数据点的近邻不容易找得准确，而近邻的准确与否对预测的结果好坏有着决定性的影响。另外，该方法也没有解决特征缺失和特征异构的问题。

发明内容

因此，本发明的目的在于克服上述现有技术的缺陷，提供一种回归预测的特征扩充方法，利用原数据(X)对应的预测值(y)来丰富数据点的信息以提升回归预测的效果。

本发明的目的是通过以下技术方案实现的：

一方面，本发明提供了一种用于回归预测的特征扩充方法YET(Y axis ExTension)，所述方法包括：

在原数据点中选择待预测数据点的邻居，所述邻居是跟待预测数据点在某个维度或某几个维度上的值相等或相似的一系列原数据点；

利用这些邻居及其对应的因变量值来对原数据点和待预测数据点的维度进行扩充。

又一个方面，提供了一种基于MapReduce的特征扩充方法，所述方法包括：

步骤1)在原数据点中选择待预测数据点的邻居，所述邻居是跟待预测数据点在某个维度或某几个维度上的值相等或相似的一系列原数据点；

步骤2)将每个原数据点分发成D₂-D₁+1份，其中D₂为原数据点扩充后的维数，D₁为原数据点扩充前的维数，每份数据为(key，value)，其中，key为需要接收本份数据的数据点的标识，value包括在接收本份数据的数据点要扩充的维的序号和发送本份数据的原数据点对应的因变量值；

步骤3)每个原数据点基于所接收的数据，提取value中包含的维的序号和因变量值来对自身的维度进行扩充。

又一个方面，提供了一种回归预测方法，所述方法包括：

步骤a)利用上述的特征扩充方法对每个原数据点X的维度进行扩充，得到扩充后的数据点；