[发明专利]多标记分类方法、装置、介质及计算设备在审
申请号: | 201710493622.6 | 申请日: | 2017-06-26 |
公开(公告)号: | CN107316063A | 公开(公告)日: | 2017-11-03 |
发明(设计)人: | 翁伟;朱顺痣;钟瑛;李建敏 | 申请(专利权)人: | 厦门理工学院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 厦门市精诚新创知识产权代理有限公司35218 | 代理人: | 何家富 |
地址: | 361000 福建省*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标记 分类 方法 装置 介质 计算 设备 | ||
技术领域
本申请涉及机器学习技术领域,尤其涉及多标记分类方法、装置、介质及计算设备。
背景技术
多标记问题在机器学习中广泛存在。例如在图像标注问题中,若给定“小船”、“水”、“山峰”、“桥”、“行人”、“落日”、“云”等标记,一副描述江边景色的图片可以被标注上这些标记中的一个或多个。再例如,在基因功能分类中,一个基因可与“能量”、“新陈代谢”等用于表示功能类别的标记相关。由于标记工程量大,人工标记由于速度慢,所以采用人工标记的方法是不现实的。故此,研究利用计算机技术进行自动多标记分类尤为重要。
相关技术中,一个需要标记的对象(简称多标记对象),常用属性向量和标记向量来描述。其中,属性向量描述该多标记对象的特性,而标记向量描述其具备哪些标记。具体的,标记多采用由“-1”和“+1”组成的向量来表示,“-1”表示多标记对象不具有对应标记,而“+1”表示具有对应标记。
虽然人们对多标记分类已经有了一段时间的研究,但如何进行多标记分类至今仍然是一个极具挑战性的问题。相对来说,传统的单标记问题研究成果较多,方法比较成熟。若将多标记问题简单地看是多个单标记问题的组合,这种方法效果往往不尽如人意。一个重要的原因在于,这种方法忽略了不同标记之间的关系。而标记之间的关系是标记预测可利用重要信息。例如,对于含有“沙漠”、“骆驼”这两个标记的图片库来说,某张图片具有“沙漠”的标记,那么很可能有具有“骆驼”这个标记。因为“沙漠”和“骆驼”经常共同出现,具有正相关性。因此,如何利用多个标记之间存在相关关系来提高多标记分类效果是一个学术界和产业界十分关心的问题。
发明内容
本申请实施例提供多标记分类方法、装置、介质及计算设备,用以解决现有技术中存在的将多标记问题简单地看是多个单标记问题的组合来进行多标记分类,导致分类结果不准确等的问题。
本申请实施例提供的一种多标记分类方法,包括:
针对标记集合中的每个标记,确定该标记的原始正例集和原始负例集;其中,针对每个样本,若该样本具有该标记,则该样本属于该标记的原始正例集,否则,该样本属于该标记的原始负例集;
对各标记的原始正例集和原始负例集分别进行类对齐,得到各标记的类对齐后的正例集和类对齐后的负例集;其中,各标记的类对齐后的正例集中样本数量相等、且各标记的类对齐后的负例集中样本数量相等;
根据预先确定的聚类中心个数,基于聚类分析方法确定每个类对齐后的正例集的聚类中心,以及每个类对齐后的负例集的聚类中心;
针对每个标记,计算该标记的原始正例集和原始负例集中每个样本相对于该标记的各聚类中心的距离,将得到的距离按序排列后作为该标记的与相应样本对应的特定属性,并以该标记的每个样本的特定属性为元素构成该标记的特定属性集合;
针对每个标记,将与该标记具有相关关系的其它标记的特定属性插入到该标记的特定属性集合中;
基于各标记的特定属性集合,进行分类训练。
本申请另一实施例还提供一种多标记分类装置,该装置包括:
正例负例集确定模块,用于针对标记集合中的每个标记,确定该标记的原始正例集和原始负例集;其中,针对每个样本,若该样本具有该标记,则该样本属于该标记的原始正例集,否则,该样本属于该标记的原始负例集;
类对齐模块,用于对各标记的原始正例集和原始负例集分别进行类对齐,得到各标记的类对齐后的正例集和类对齐后的负例集;其中,各标记的类对齐后的正例集中样本数量相等、且各标记的类对齐后的负例集中样本数量相等;
聚类中心确定模块,用于根据预先确定的聚类中心个数,基于聚类分析方法确定每个类对齐后的正例集的聚类中心,以及每个类对齐后的负例集的聚类中心;
特定属性确定模块,用于针对每个标记,计算该标记的原始正例集和原始负例集中每个样本相对于该标记的各聚类中心的距离,将得到的距离按序排列后作为该标记的与相应样本对应的特定属性,并以该标记的每个样本的特定属性为元素构成该标记的特定属性集合;
数据优化模块,用于针对每个标记,将与该标记具有相关关系的其它标记的特定属性插入到该标记的特定属性集合中;
分类训练模块,用于基于各标记的特定属性集合,进行分类训练。
本申请另一实施例还提供了一种计算设备,其包括存储器和处理器,其中,所述存储器用于存储程序指令,所述处理器用于调用所述存储器中存储的程序指令,按照获得的程序指令执行本申请实施例中的任一多标记分类方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门理工学院,未经厦门理工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710493622.6/2.html,转载请声明来源钻瓜专利网。