[发明专利]分类模型的训练方法及装置在审
申请号: | 201710361782.5 | 申请日: | 2017-05-19 |
公开(公告)号: | CN108960264A | 公开(公告)日: | 2018-12-07 |
发明(设计)人: | 刘炯宙;夏命榛 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类模型 目标特征 高维 子集 数据复杂度 目标数据 稀疏特征 样本数据 复杂度 分类算法 目标参数 目标分类 映射关系 算法 表征数据 参数集合 数据分析 训练分类 训练目标 样本特征 维度 稀疏 申请 转换 | ||
本申请公开了一种分类模型的训练方法及装置,用于提升数据分析效率。本申请的分类模型的训练方法包括:接收用于训练分类模型的样本数据,样本数据包括多个样本特征;从样本数据中确定目标特征子集,利用高维稀疏化转换方法确定目标特征子集的高维稀疏特征;确定目标特征子集的高维稀疏特征对应的目标数据复杂度,该数据复杂度包括用于表征数据特征的多个维度;根据已建立的数据复杂度与分类算法的映射关系确定目标数据复杂度所对应的目标分类算法,以及根据已建立的数据复杂度与目标分类算法的超参数集合的映射关系确定目标数据复杂度所对应的目标参数;根据确定的目标参数以及目标特征子集的高维稀疏特征训练目标分类算法,以得到分类模型。
技术领域
本申请涉及数据处理领域,特别涉及一种分类模型的训练方法及装置。
背景技术
随着大数据时代的到来,信息数据日益膨胀,对海量数据进行高效鲁棒精确分析的市场需求不断扩大。如电信领域的离网预测、医疗诊断、信用卡系统的信用分级、图像模式识别以及网络数据分类等。在此背景下,机器学习得到了广泛应用,尤其以机器学习中分类方法的应用最为广泛。
然而,对于分类方法的使用却面临着众多的难题,其中以特征选择,特征变换,模型选择和参数调优最为困难,需要反复尝试,修改,再迭代,使得数据分析周期长,成本高。由于特征选择,模型选择,参数调优等任何一个环节都有可能对最终结果产生影响,所以在数据分析时,要求系统整体具备较高的鲁棒性,使得当一个环节出了轻微的问题,不至于给最终结果造成很差的影响。
但也正因如此,影响数据分析的因素很多,对数据分析结果的定位和调试成本非常高,特别是大数据场景,每做一次数据分析需要花费大量的时间进行计算,导致整个数据分析周期过长,数据分析效率低下。
发明内容
本申请提供了一种分类模型的训练方法及装置,用于提升数据分析效率。
本申请第一方面提供了一种分类模型的训练方法,该分类模型用于对数据进行分类。
为了便于从样本数据中提取相关特征,因此,首先需要接收输入的用于训练所述分类模型的样本数据;其中,该样本数据包括多个样本特征。
然后通过从该样本数据中确定目标特征子集,筛选出需要用到的多个特征,以减少数据的计算量。其中,该目标特征子集为该样本数据中相关性和冗余度都满足目标条件的特征集合。
利用高维稀疏化转换方法确定该目标特征子集的高维稀疏特征,该高维稀疏特征为线性特征;如利用核函数方法对所述目标特征子集进行稀疏化处理,得到目标特征子集的高维稀疏特征,以提高数据分析的精度。
接下来确定该目标特征子集的高维稀疏特征对应的目标数据复杂度,该数据复杂度包括用于表征数据特点的多个维度;可采用数据复杂度来度量特征子集的高维稀疏特征。
然后根据已建立的数据复杂度与分类算法的映射关系确定所述目标数据复杂度所对应的目标分类算法,以及根据已建立的数据复杂度与所述目标分类算法的超参数集合的映射关系确定所述目标数据复杂度所对应的目标参数达到优选算法以及缩小参数空间的目的。其中,该数据复杂度与分类算法的映射关系,以及该数据复杂度与分类算法的超参数集合的映射关系可通过预学习训练得到。
最后根据确定的该目标参数以及该目标特征子集的高维稀疏特征训练该目标分类算法,以得到该分类模型。应用该分类模型能够提高数据分析效率。
在第一方面的一种实现方式下,上述从该样本数据中确定目标特征子集,包括:
从该样本数据中确定最大相关性和最小冗余度的特征子集;该最大相关性和最小冗余度的特征子集为该目标特征子集。通过提取满足最大相关性和最小冗余度的特征子集,可以过滤一些关联度不重要的数据,以减少数据的计算量。
在第一方面的一种实现方式下,该利用高维稀疏化转换方法确定该目标特征子集的高维稀疏特征,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710361782.5/2.html,转载请声明来源钻瓜专利网。