[发明专利]一种存在部分缺失和未知类别标记的多标记分类方法在审
申请号: | 202010870298.7 | 申请日: | 2020-08-26 |
公开(公告)号: | CN112132186A | 公开(公告)日: | 2020-12-25 |
发明(设计)人: | 黄俊;屈喜文;郑啸;陶陶;袁志祥;程泽凯;秦锋 | 申请(专利权)人: | 安徽工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00;G06F17/16 |
代理公司: | 安徽知问律师事务所 34134 | 代理人: | 平静 |
地址: | 243002 *** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 存在 部分 缺失 未知 类别 标记 分类 方法 | ||
本发明公开了一种存在部分缺失和未知类别标记的多标记分类方法,属于机器学习技术领域;本发明将部分缺失类别标记和未知类别标记的问题融合在一个框架中,利用高斯距离函数,计算样本相似度矩阵,再将相似度矩阵分解,得到完整类别标记矩阵的近似解,约束近似解的部分结果与已观测的标记结果一致,同时构建从样本特征到完整标记的分类模型,建模已知标记和新发现未知标记之间的关联性,约束相关性较强的具有相似的分类模型系数,并不断优化完整标记矩阵的结果,进而学习得到准确的分类模型。本可发明不仅可以解决已知类别标记存在部分缺失值问题,还可以发现多标记数据中的未知类别标记,挖掘出数据中有价值的隐含信息。
技术领域
本发明涉及机器学习技术领域,更具体地说,涉及一种存在部分缺失和未知类别标记的 多标记分类方法。
背景技术
多标记学习是当前机器学习领域的一个研究热点,近年来受到了学术界和企业界研究人 员的广泛关注。在多标记学习的学习中,每个样本可以同时属于多个类别标记,例如一部电 影可以同时属于多个类别,如“动作片”,“战争片”,“惊悚片”等。多标记学习在现实 生活中得到了广泛应用,如文本分类、图像和视频标注、音乐分类、商品推荐等。
多标记学习的主要任务是根据给定的训练数据集,学习一个高效的多标记分类模型,可 以给新的样本预测一个或多个可能的类别标记。针对多标记学习问题,研究人员已经提出了 很多方法。现有多标记学习方法主要假设训练数据集的类别标记集合是完整的,并且所有标 记值均已知。在多标记数据标注过程中,标注者会给样本标注一个或者多个相关的类别标记, 标注过程费时费力,标注者很难准确的给样本标注所有相关的类别,尤其当类别标记总数较 多时,很容易导致标注结果存在部分缺失,甚至完全缺失的情况,即这些类别标记没有标注 给任何一个样本。此外,多标记数据的语义复杂,可能会存在一些类别标记超出人类的认知 范围,也会导致这些类别标记没有标注给任何一个样本,这些完全缺失的类别标记在训练阶 段都是未知的,导致学习难度较大。
当前,研究人员已经提出了一些处理缺失标记的多标记分类方法,但是只能处理存在部 分缺失值的情况,不能处理数据集存在未知类别标记的情况。这些方法主要基于矩阵补全或 者在构造分类损失函数时不考虑缺失项,这两种策略的前提要求是每个类别至少要有一个正 例样本。因此,当数据存在某些未知类别标记时,它们的标记结果是完全缺失时,现有方法 均无法处理。目前被提出的有两个方法可以用来处理存在未知类别标记的情况,如A.Pham 等在国际机器学习会议上发表的存在新颖标记实例的多实例多标记学习方法和朱越等在人工 智能促进协会年会发表的发现多个新颖标记的多实例多标记学习方法,但是这两个方法只能 用于多实例多标记学习,无法用于一般情况下的多标记学习,即单实例多标记学习,而且也 无法处理存在部分缺失标记的情况。
经检索,中国专利申请号:201911306128.X,申请公布日:2020年4月21日,发明名称为:一种多标记分类中潜在类别发现和分类方法;该申请案将已知标记分类和潜在标记发 现及分类融合在一框架中,利用非负矩阵分解技术,将特征矩阵分解为完整类别标记矩阵的 近似解和系数矩阵,并约束近似解的已知部分结果与真实值一致,同时构建从样本特征到完 整标记的分类模型,发现潜在的标记类型;通过潜在标记发现,挖掘出数据中有价值的隐含 信息,利用已知标记和潜在标记之间的关联性,约束相关性较强的任意类别具有相似的分类 模型系数,得到近似的分类预测结果,使已知标记分类和潜在标记分类相互指导,共同促进, 最终提升已知标记和潜在标记的分类性能,更好的进行多标记学习任务。但该申请案假设已 知标记部分的标记值完全观测,当已知标记值存在缺失时,该申请案中所提算法的性能会受 到影响。且在实际应用中,当数据存在未知新标记时,已知标记部分的标记值存在缺失则更 为常见,该申请案在应用到实际上时,会存在误差。
发明内容
1.发明要解决的技术问题
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽工业大学,未经安徽工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010870298.7/2.html,转载请声明来源钻瓜专利网。