[发明专利]一种特征集确定的方法及装置有效
申请号: | 201610082067.3 | 申请日: | 2016-02-05 |
公开(公告)号: | CN107045503B | 公开(公告)日: | 2019-03-05 |
发明(设计)人: | 涂丹丹;张家劲 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/2458 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 征集 确定 方法 装置 | ||
1.一种特征集确定的方法,其特征在于,包括:
根据接收到的特征集确定请求,获取用于特征学习的数据,所述特征集确定请求中包括所述特征学习的学习目标;
对所述数据进行类型分析,划分出第一类型的数据和第二类型的数据,所述第一类型的数据为非数值类型的数据,所述第二类型的数据为数值类型的数据;
对所述第一类型的数据进行半监督学习,以提取出多个第一类型的特征,对所述第二类型的数据进行自适应学习,以提取出多个第二类型的特征;
对所述多个第一类型的特征和所述多个第二类型的特征进行评估,以得到最优特征集,所述最优特征集包括多个准确率满足预置条件的特征,所述准确率为各个所述特征与所述学习目标的接近程度;
将所述最优特征集输出,以响应所述特征集确定请求。
2.根据权利要求1所述的方法,其特征在于,所述第一类型的数据包括标注数据和非标注数据,所述对所述第一类型的数据进行半监督学习,以提取出多个第一类型的特征,包括:
利用稀疏自编码算法对所述非标注数据进行无监督学习,得到稀疏自编码算法的函数参数W和b,所述W为所述稀疏自编码算法中的变量系数,所述b为所述稀疏自编码算法中的常量;
利用前馈自编码算法,对所述标注数据,以及所述W和所述b进行特征变换,以得到多个第一类型的特征。
3.根据权利要求1所述的方法,其特征在于,所述对所述第二类型的数据进行自适应学习,以提取出多个第二类型的特征,包括:
对所述第二类型的数据进行线性相关性判断;
根据线性相关性判断的结果,采用与所述结果对应的特征提取策略进行特征提取,以得到特征变换矩阵;
根据所述特征变换矩阵对所述第二类型的数据中的标注数据进行特征变换,以得到多个第二类型的特征。
4.根据权利要求3所述的方法,其特征在于,所述根据所述特征变换矩阵对所述第二类型的数据中的标注数据进行特征变换,以得到多个第二类型的特征,包括:
根据所述特征变换矩阵对所述第二类型的数据中的标注数据进行特征变换,得到自适应学习得到的特征;
当所述自适应学习得到的特征满足所述准确率的要求时,则将所述自适应学习得到的特征作为所述第二类型的特征;
当所述自适应学习得到的特征不满足所述准确率的要求时,对所述自适应学习得到的特征进行自动特征选择,以确定所述第二类型的特征。
5.根据权利要求3或4所述的方法,其特征在于,所述根据线性相关性判断的结果,采用与所述结果对应的特征提取策略进行特征提取,以得到特征变换矩阵,包括:
当所述结果为线性相关时,若所述标注数据集的数据量在所述第二类型的数据中所占的比例超过预置阈值,则采用线性判别分析LDA算法进行监督线性特征提取,以得到特征变换矩阵,若所述比例低于所述预置阈值,则采用主成分分析PCA算法进行非监督线性特征提取,得到特征变换矩阵;
当所述结果为非线性相关时,若所述比例超过所述预置阈值,则采用核线性判别分析KLDA算法进行监督线性特征提取,得到特征变换矩阵,若所述比例低于所述预置阈值,则采用MIGFE算法进行非监督非线性特征提取,得到特征变换矩阵。
6.根据权利要求4所述的方法,其特征在于,所述当所述自适应学习得到的特征不满足所述准确率的要求时,对所述自适应学习得到的特征进行自动特征选择,以确定第二类型的特征,包括:
去除所述自适应学习得到的特征中的常量,以得到多个初选特征;
根据所述多个初选特征的信息增益和所述多个初选特征之间的相似程度,对所述多个初选特征进行排序并筛选,以得到第二类型的特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610082067.3/1.html,转载请声明来源钻瓜专利网。