[发明专利]分类器训练方法及其系统无效

专利信息
申请号: 201210572771.9 申请日: 2012-12-25
公开(公告)号: CN103020711A 公开(公告)日: 2013-04-03
发明(设计)人: 吕俊超;黄哲学 申请(专利权)人: 中国科学院深圳先进技术研究院
主分类号: G06N5/00 分类号: G06N5/00
代理公司: 广州华进联合专利商标代理有限公司 44224 代理人: 吴平
地址: 518055 广东省深圳*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 分类 训练 方法 及其 系统
【说明书】:

技术领域

发明涉及数据挖掘领域的技术领域,特别是涉及一种分类器训练方法,以及一种分类器训练系统。

背景技术

基于分类器的线性分类方法在机器学习,数据挖掘领域扮演着重要的角色,并在如文本文类,信用卡风险控制等应用表现出较好的实际效果。

分类器可以分为训练和预测两个步骤:

训练:对于一组有类别标记的样本集{xi,yi},i=1,...n,xi∈Rd,yi∈{-1,1},确定准则函数f(w),其中,f(w)为关于x、y、w的函数,并通过优化方法获得f(w)的权重的极值解w*,从而得到线性判别函数g(x)=(w*)Tx。

预测:对于未知类别的样本xk,根据所述g(xk)的取值对所述未知类别的样本进行分类。

在分类器的训练过程中,训练速度是非常重要的指标,分类器的训练过程中常用的优化方法主要有两种:批量式学习(batch learning)和随机学习(stochastic learning)。

批量式学习法在每次求取收敛下降方向时需要涉及到所有样本,从而保证很好的收敛特性。有限内存BFGS方法(limited-memory BFGS)属于批量式学习方法,由于其准确率高,运行速度快等优点近些年来备受欢迎。

随机学习法在每一步学习中只需要对随机挑选出部分样本进行学习,特别是随机梯度法(stochastic gradient descent,SGD),每次选择一个样本来求取梯度下降方向。

然而,随着对分类器训练速度的要求提高,上述两种优化方法的收敛速度越来越不能满足快速学习的需求,如何提高训练速度一直是技术人员亟待解决的技术难题。

发明内容

针对上述背景技术中存在的问题,本发明的目的在于提供一种分类器训练方法及其系统,提高优化方法的收敛速度,进一步提高分类器训练速度。

一种分类器训练方法,包括:

根据带有类别标记的训练样本集,确定分类器的准则函数;

根据所述训练样本集,采用随机梯度下降法对所述准则函数运行n1次迭代,获取所述准则函数的初步权重,其中,n1等于所述训练样本集的样本个数;

在所述初步权重的基础上,采用有限内存BFGS方法继续对所述准则函数迭代直到收敛,获取所述准则函数的最终权重;

根据所述最终权重获取线性判别函数,建立分类器。

一种分类器训练系统,包括:

分类器定义模块,用于根据带有类别标记的训练样本集,确定分类器的准则函数;

随机学习模块,用于根据所述训练样本集,采用随机梯度下降法对所述准则函数运行n1次迭代,获取所述准则函数的初步权重,其中,n1等于所述训练样本集的样本个数;

批量学习模块,用于在所述初步权重的基础上,采用有限内存BFGS方法继续对所述准则函数迭代直到收敛,获取所述准则函数的最终权重;

分类器模块,用于根据所述最终权重获取线性判别函数,建立分类器。

本发明分类器训练方法及其系统通过采用两种不同的优化方法的结合,使优化方法的收敛速度更高,大大提高了分类器的训练速度。现有的两种优化方法,分别是随机梯度下降法和有限内存BFGS方法,但这两种方法具有各自不同的收敛特性,本领域技术人员难以找到合适的方法将这两种不同的优化方法结合,并且能够提高收敛速度。而如果随便将这两种方法结合,可能达到的效果不是提高收敛速度而是反而降低了收敛速度。本发明的分类器训练方法是通过理论推导和大量实验验证,得到随机梯度下降法和有限内存BFGS方法结合的最合适方法是先采用随机梯度下降法对所述准则函数运行n1次迭代,其中,n1等于训练样本集的样本个数,然后再在此基础上采用有限内存BFGS方法继续对所述准则函数运行若干次迭代直到收敛。实验证明,通过本发明的方法将两种优化算法结合能够大大提高收敛速度,从而提高分类器的训练速度,并且不会降低分类器的准确率。

附图说明

图1是本发明分类器训练方法的流程示意图;

图2是有限内存BFGS方法和随机梯度下降法的收敛速度示意图;

图3为本发明分类器训练方法一种优选实施方式执行随机梯度下降法获得初步权重的流程示意图;

图4为本发明分类器训练方法一种优选实施方式执行有限内存BFGS方法获得最终权重的流程示意图;

图5是本发明分类器训练系统的结构示意图;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210572771.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top