[发明专利]一种利用特权信息进行排序转移的分类方法有效

专利信息
申请号: 201910570524.7 申请日: 2019-06-27
公开(公告)号: CN110472748A 公开(公告)日: 2019-11-19
发明(设计)人: 刘倩;刘波;肖燕珊;李松松;刘芷菁 申请(专利权)人: 广东工业大学
主分类号: G06N20/10 分类号: G06N20/10
代理公司: 44329 广东广信君达律师事务所 代理人: 杨晓松<国际申请>=<国际公布>=<进入
地址: 510062 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 特权信息 排序支持向量机 标记样本 恒定 实际距离 分类器 训练样本集 训练样本 负样本 间距比 训练集 正样本 排序 样本 学习 分类
【说明书】:

发明公开了一种利用特权信息进行排序转移的分类方法,考虑到正标记样本和未标记样本及其特权信息同时存在的情况,本发明将正样本PS、负样本NS、未标记样本及其相似权结合到排序支持向量机的学习模型中,得到扩展的第一排序支持向量机模型,在只有特权信息的训练集上训练。然后利用特权信息训练出来的分类器去计算普通训练样本(不含特权信息)间的实际距离。最后用实际距离去代替恒定间距1,在普通训练样本集上训练第二排序支持向量机模型。本发明利用特权信息计算的实际样本间距比恒定间距1更为精确,使用实际间距去学习可使分类器更为精确。

技术领域

本发明涉及机器学习的技术领域,尤其涉及到一种利用特权信息进行排序转移的分类方法。

背景技术

在传统的监督学习中,仅对有标记的训练样本进行学习,从而建立模型用于预测未知样本的标记。随着数据收集和存储技术的飞速发展,收集大量未标记的样本相当容易,因为获得这些标记可能需要耗费大量的资源,所以获取大量有标记的样本相当困难。比如说标记异常。因为未标记样本很容易得到,所以正标记数据和未标记数据的学习(PU学习)引起了很大的关注。在现有的工作中对PU学习进行了很多研究,这些研究表明未标记样本更容易位于决策边界附近,在分类器的构建中起着至关重要的作用。考虑到PU学习的现有研究工作已经使用了不同方法处理未标记样本,根据处理未标记数据的方法将现有的PU学习方法主要分为三类。第一类遵循两步策略[1]B.Liu,W.S.Lee,P.S.Yu,and X.Li,Partially supervised classification of text documents.pp.387-394.以及[2]X.Li,and B.Liu,Learning to classify texts using positive and unlabeleddata.pp.587-592,首先从未标记数据中识别可靠的负数据,然后使用普通分类器执行传统的监督学习。比如支持向量机可以直接用正例和识别出的负例训练目标模型。然而,所识别的负实例可能是不准确的,这就可能导致目标模型的性能差。第二类是所有未标记的例子都被直接视为负实例,PU学习被描述为成本敏感的学习问题。通过对训练样本进行重新加权,可以将训练集的不准确数据分布校正为潜在的正确分布,从而近似理想的数据分布。例如,加权逻辑回归[3]W.S.Lee,and B.Liu,Learning with positive and unlabeledexamples using weighted logistic regression.pp.448-455和加权SVM[4]C.Elkan,and K.Noto,Learning classifiers from only positive and unlabeled data.pp.213-220.将不同的正则化参数应用于标记和未标记的实例以调整数据权重。但是,手动调整正则化参数必然需要经验,很容易产生错误分类。类似于第二类,最后一类也将未标记的实例视为负实例,但是该负实例是带有标签噪声的。换句话说,未标记集合中的潜在正实被错误标记为负实例,因此PU学习可以转换为噪声标签学习问题。例如[5]B.Liu,Y.Dai,X.Li,W.S.Lee,and S.Y.Philip,Building Text Classifiers Using Positive andUnlabeled Examples.pp.179-188,有偏差的SVM在训练期间使用两个权衡参数分别对正误差和负误差进行加权。然而,该方法仅利用自由参数来粗略地控制噪声速率,没有构建特定的模型来处理标签噪声,因此其性能在很大程度上取决于两个权衡参数的选择。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910570524.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top