[发明专利]数据分类方法及装置有效
申请号: | 201410509767.7 | 申请日: | 2014-09-28 |
公开(公告)号: | CN104298997B | 公开(公告)日: | 2017-10-03 |
发明(设计)人: | 龙飞;张涛;陈志军 | 申请(专利权)人: | 小米科技有限责任公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京三高永信知识产权代理有限责任公司11138 | 代理人: | 林锦澜 |
地址: | 100085 北京市海淀区清*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 分类 方法 装置 | ||
技术领域
本公开涉及数据分类技术领域,特别涉及一种数据分类方法及装置。
背景技术
分类是一种重要的数据挖掘技术。分类的目的是根据数据集的特点构造一个分类函数或分类器。该分类器能把未知类别的样本映射到给定类别中,如何更好地使用分类器就成了提高分类效果的关键。
相关技术中在字典学习与稀疏分解算法的基础上,一般的分类方法会训练复杂的分类器并在基于欧几里得距离下应用分类器进行分类。
发明人在实现本公开的过程中,发现相关技术至少存在如下缺陷:一般的分类方法由于需要训练复杂的分类器,且基于欧几里得距离应用该复杂的分类器进行分类时,需要进行复杂的计算,因此分类效率较低。
发明内容
为了解决相关技术中基于欧几里得距离应用复杂的分类器进行分类时,需要进行复杂的计算,分类效率较低的问题,本公开提供一种数据分类方法及装置。所述技术方案如下:
根据本公开实施例的第一方面,提供一种数据分类方法,所述方法包括:
获取测试数据,通过预定方法计算得到与所述测试数据对应的稀疏系数向量,所述稀疏系数向量是将所述测试数据映射到训练得到的字典上时所得到的系数向量;
计算所述稀疏系数向量与训练得到的训练矩阵中每个列向量的汉明距离,所述训练矩阵由至少两个列向量组成,每个列向量对应一个用于表示所属类别的类别标签;
根据所述汉明距离确定所述测试数据的类别。
可选的,所述方法还包括:
选取第一训练样本集和第二训练样本集,确定每个训练样本集中各个训练样本的类别;
利用所述第一训练样本集获取所述字典;
将所述第二训练样本集中的每个训练样本在所述字典下分解为训练稀疏系数向量,将分解得到的所述稀疏系数向量确定为训练稀疏系数向量,所述训练稀疏系数向量为列向量;
将得到的各个训练稀疏系数向量级联获得所述训练矩阵;
根据每个所述训练稀疏系数向量所对应的类别保存所述训练矩阵中各个列向量的类别标签,每个所述训练稀疏系数向量所对应的类别为与所述训练稀疏系数向量对应的训练样本的类别。
可选的,所述利用所述第一训练样本集获取所述字典,包括:
将所述第一训练样本集中的各个训练样本分别变换为列向量,将得到的各个列向量依序排列成矩阵,构成所述字典;
或,
对于所述第一训练样本集中的各个训练样本,采用奇异值分解算法进行字典的学习,得到所述字典;
或,
根据类别对所述第一训练样本集中各个训练样本进行分组,得到至少一个训练样本子集,每个训练样本子集中的训练样本具有相同的类别;采用奇异值分解算法分别对各个训练样本子集进行字典学习,得到各个训练样本子集的字典;将各个训练样本子集的字典级联组成获取的所述字典。
可选的,所述通过预定方法计算得到与所述测试数据对应的稀疏系数向量,包括:
获取训练得到的所述字典;
利用第一公式计算得到所述测试数据的稀疏系数向量;
其中,所述第一公式为:min(x)||x||1,s.t.y=Dx,D为所述字典,y为所述测试数据,x为所述稀疏系数向量。
可选的,所述根据所述汉明距离确定所述测试数据的类别,包括:
根据所述汉明距离,从所述训练矩阵中选取出与汉明距离最小值对应的各个列向量;
统计各个所述列向量所对应的每种类别标签的数量;
将数量最多的类别标签所指示的类别,确定为所述测试数据的类别。
根据本公开实施例的第二方面,提供一种数据分类装置,所述装置包括:
第一计算模块,被配置为获取测试数据,通过预定方法计算得到与所述测试数据对应的稀疏系数向量,所述稀疏系数向量是将所述测试数据映射到训练得到的字典上时所得到的系数向量;
第二计算模块,被配置为计算所述稀疏系数向量与训练得到的训练矩阵中每个列向量的汉明距离,所述训练矩阵由至少两个列向量组成,每个列向量对应一个用于表示所属类别的类别标签;
确定模块,被配置为根据所述汉明距离确定所述测试数据的类别。
可选的,所述装置还包括:
选取模块,被配置为选取第一训练样本集和第二训练样本集,确定每个训练样本集中各个训练样本的类别;
获取模块,被配置为利用所述第一训练样本集获取所述字典;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于小米科技有限责任公司,未经小米科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410509767.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置