[发明专利]分类模型的训练方法及装置在审
申请号: | 201710361782.5 | 申请日: | 2017-05-19 |
公开(公告)号: | CN108960264A | 公开(公告)日: | 2018-12-07 |
发明(设计)人: | 刘炯宙;夏命榛 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类模型 目标特征 高维 子集 数据复杂度 目标数据 稀疏特征 样本数据 复杂度 分类算法 目标参数 目标分类 映射关系 算法 表征数据 参数集合 数据分析 训练分类 训练目标 样本特征 维度 稀疏 申请 转换 | ||
1.一种分类模型的训练方法,其特征在于,所述分类模型用于对数据进行分类,所述方法包括:
接收用于训练所述分类模型的样本数据,所述样本数据包括多个样本特征;
从所述样本数据中确定目标特征子集,所述目标特征子集为所述样本数据中相关性和冗余度都满足目标条件的特征集合;
利用高维稀疏化转换方法确定所述目标特征子集的高维稀疏特征,所述高维稀疏特征为线性特征;
确定所述目标特征子集的高维稀疏特征对应的目标数据复杂度,所述数据复杂度包括用于表征数据特点的多个维度;
根据已建立的数据复杂度与分类算法的映射关系确定所述目标数据复杂度所对应的目标分类算法,以及根据已建立的数据复杂度与所述目标分类算法的超参数集合的映射关系确定所述目标数据复杂度所对应的目标参数;
根据确定的所述目标参数以及所述目标特征子集的高维稀疏特征训练所述目标分类算法,以得到所述分类模型。
2.根据权利要求1所述的方法,其特征在于,所述从所述样本数据中确定目标特征子集,包括:
从所述样本数据中确定最大相关性和最小冗余度的特征子集;所述最大相关性和最小冗余度的特征子集为所述目标特征子集。
3.根据权利要求1所述的方法,其特征在于,所述利用高维稀疏化转换方法确定所述目标特征子集的高维稀疏特征,包括:
对所述目标特征子集进行均衡处理,然后添加随机噪声;
将进行均衡处理以及添加随机噪声后的所述目标特征子集拆分为第一子集和第二子集;
利用所述第一子集训练特征稀疏编码算法,以得到特征稀疏编码泛化模型;
输入第二子集,并根据所述特征稀疏编码泛化模型确定所述第二子集对应的高维稀疏特征。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述根据已建立的数据复杂度与分类算法的映射关系确定所述目标数据复杂度所对应的目标分类算法之前,所述方法还包括:
训练所述数据复杂度与分类算法的映射关系,以及训练所述数据复杂度与分类算法的超参数集合的映射关系。
5.根据权利要求4所述的方法,其特征在于,所述训练所述数据复杂度与分类算法的映射关系,以及训练所述数据复杂度与分类算法的超参数集合的映射关系包括:
获取输入的多个分类算法以及多组训练数据;
确定所述多组训练数据中每组训练数据对应的分类算法以及所述多个分类算法中每个分类算法对应的超参数集合;
获取多份数据复杂度,所述多份数据复杂度是所述多组训练数据中每组训练数据的数据复杂度;
建立所述多份数据复杂度与所述多个分类算法的映射关系;
建立所述多份数据复杂度与所述每个分类算法对应的超参数集合的映射关系。
6.根据权利要求1至3任一项所述的方法,其特征在于,所述数据复杂度包括用于表征数据特点的十二个维度中的至少两个,所述十二个维度包括:线性判别率、目标类型范围重叠率、单一特征最大能效、线性分类误差率、线性分类最小误差和、线性分类面样本比例、同类样本聚集密度、不同类样本聚集密度、样本数据非线性、异类样本差异性、各类样本最小超维闭包以及各个维度取值稀疏率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710361782.5/1.html,转载请声明来源钻瓜专利网。