[发明专利]一种面向歧义标注样本的分类方法有效

申请号：	201910614555.8	申请日：	2019-07-09
公开（公告）号：	CN110427973B	公开（公告）日：	2023-07-18
发明（设计）人：	张敏灵;吴璇	申请（专利权）人：	东南大学
主分类号：	G06F18/2431	分类号：	G06F18/2431;G06F18/214
代理公司：	南京苏高专利商标事务所(普通合伙) 32204	代理人：	张超
地址：	210000 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种面向歧义标注样本分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种面向歧义标注样本的分类方法，适用于对标记集合中存在歧义的样本进行分类。该方法包括以下步骤：(1)用户从样本存储设备中选样本；(2)根据样本自身特性提取特征，并整理对应的标记集合；(3)采用标记成对比较方法，将原始样本集重构为多个多分类样本集，并学习对应分类器；(4)使用学习所得分类器，对待测样本进行分类，并对各个标记进行投票；(5)如果用户对上一步预测的结果满意则结束，否则从样本存储设备中选择更多的样本进行训练，并转到步骤(2)。

技术领域

本发明涉及一种分类方法，具体是针对样本标注中存在歧义的情况，属于弱监督分类技术领域。

背景技术

分类是许多实际问题的基本子任务，在互联网时代，存在海量的图片、文档、商品等信息，如何高效准确地返回用户搜索的目标，或进行精准地推荐，均依赖于对样本高效地归类。机器学习的发展，为自动化分类海量样本提供了更为便捷的选择。该类方法，首先选取部分具有明确标注的样本，将提取的特征与对应的标记提交至学习算法并学得分类器，之后将待分类的样本送至分类器，即可得到该待测样本的类别标记。

使用机器学习对样本进行分类并得到泛化性能较强的分类器，需要满足强监督的假设，即拥有大量的训练样本，且训练样本具有明确的标记。在大数据时代，大量的训练样本并不难获得，然而对样本进行准确的标注却需要耗费大量的人力成本。但是实际上，获得大量标注具有歧义性的样本却相对容易。例如，在新闻中的图片中包含了两个人脸，新闻的叙述中也包含了两个人名，若将人脸与人名一一对应需要耗费人力资源，若直接将两个人名作为歧义标记分配给人脸图片样本，则只需自动完成，随后，即可使用相应的学习算法进行训练，并对待测样本进行分类。然而，目前的分类算法均基于准确标记，无法对具有歧义标注样本进行分类。

发明内容

发明目的：本发明的目的在于解决现有的分类技术依赖大量具有明确标记样本的问题，提出一种面向歧义标注样本的分类方法。

技术方案：为解决上述问题，本发明提供以下技术方案：

一种面向歧义标注样本的分类方法，包括以下步骤：

(1)根据事先制定的规则，构建标注集合，从样本存储设备中选样本；

(2)根据样本自身特性提取特征，并整理对应的标记集合；

(3)采用标记成对比较方法，将原始样本集重构为多个多分类样本集，并学习对应分类器；

(4)使用学习所得分类器，对待测样本进行分类，并对各个标记进行投票；

(5)如果符合事先制定的结果则结束，否则从样本存储设备中选择更多的样本进行训练，并转到步骤(2)。

进一步地，所述步骤(2)中，根据样本自身特性提取特征，并整理对应的标记集合，具体为：将样本集合定义为其中x_i是d维的特征向量，Y_i表示与样本x_i对应的歧义标记集合，样本的真实标记y_i∈Y_i，但在训练过程中，无法被学习算法所获得，在此规定，标记集合的大小为q，即总共有q种类别。

进一步地，利用标记成对比较方法，对原始样本重构为多个多分类样本集，并学习对应分类器；具体包括：

对于一组标记对(y_j，y_k)(1≤j＜k≤n)，通过下式对所有样本的类别标记进行重构：