[发明专利]一种集成的加权多数软投票的众包数据真值推理方法在审

专利信息
申请号: 202110309301.2 申请日: 2021-03-23
公开(公告)号: CN113139580A 公开(公告)日: 2021-07-20
发明(设计)人: 张桦;徐宏;沈菲;蒋世豪;张灵均;吴以凡 申请(专利权)人: 杭州电子科技大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 杭州君度专利代理事务所(特殊普通合伙) 33240 代理人: 朱月芬
地址: 310018 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 集成 加权 多数 投票 数据 真值 推理 方法
【说明书】:

发明公开了一种集成的加权多数软投票的众包数据真值推理方法。本发明包括:步骤1、通过计算实例属于每一个类别的概率,复制K‑1个实例副本,从而转换为新的众包数据集用以训练弱分类器;步骤2、采用基于极大似然估计的方法聚合弱分类器;步骤3、引入工人在不同的实例上的不同的标注能力,采用基于相似度比较的方法计算工人权重;步骤4、采用加权软投票的方法聚合生成推理的标签。本发明不仅引入了实例的特征,还综合考虑了不同工人对于不同实例的标注能力,通过基于相似度比较预测标签和工人标签得到的权重来量化标注能力。提出基于工人权重的加权软投票的方法预测最后的标签。本发明提出的方法具有较强的可实施性。

技术领域

本发明属于数据挖掘领域,尤其涉及一种集成的加权多数软投票的众包数据真值推理方法。

背景技术

数据挖掘领域需要大量高质量的标注数据来训练模型,而众包标注是一种相对有效且经济的获取标注数据的方式。众包平台通过将任务划分为较小的任务单元,分配线上大众来进行标注,从而获得大量的标注数据。由于平台标注人员综合素质的不确定性,导致众包标注数据相对于专家标注整体质量较低,为解决众包标注数据的质量问题,一般通过真值推理的方法推测出真实标签。众包系统中的数据标注由于标注人员的标注水平不一导致产生的标注结果存在和标签真值不一致的标签,称为“噪声标签”。传统真值推理利用多噪声标签作为输入,通过聚合策略推断出真实标签,这个过程只考虑了实例的标签而忽略了实例的特征,同时也忽略了不同工人对于不同实例的标注质量。

近些年众包质量控制方向出现了很多先进的研究,研究人员提出了基于不可知论的真值推理方法,其中最经典的就是DS(DawidSkene)算法,它将标签属于某个类别的概率作为隐藏变量,利用极大似然估计迭代地计算每个工人的混淆矩阵以及每个类别的先验概率。近些年来,研究人员在DS的基础上进行很多改进。Demartini等人提出了ZC(ZenCrowd)策略,引入工人模型的概念,提出了一个简单的模型,采用{good,bad}的参数来对工人的可靠性进行建模,该方法可以有效防止数据集稀疏时参数出现偏差。Zhou等人通过工人、实例、标签三者的概率分布生成的最大熵来推断真值。但这些真值推理未考虑实例的特征以及不同工人对于不同实例的标注质量的影响。

发明内容

本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种集成的加权多数软投票的众包数据真值推理方法。通过充分利用实例的特征与类标签的关联提高分类的准确性;采用极大似然估计的方法聚合弱分类器使之适用于众包任务场景,达到局部最优解;采用基于相似度的方法计算工人质量采用加权软投票的方式生成聚合标签。

为了达到上述目的,本发明通过以下技术方案来实现:

将众包数据集定义为每一个实例为ei=xi,yi,li,其中xi是众包数据中第i个实例的特征向量;yi是众包数据中第i个实例的真实标签;li是第i个实例的噪声标签集,包含J个工人对第i个实例的所有噪声标签:li={li1,li2,li3,...,lij},i∈{1,2,3,...,I},j∈{1,2,3,...,J}。

一种集成的加权多数软投票的众包数据真值推理方法,包括以下步骤:

步骤1、通过计算实例属于每一个类别的概率,复制K-1个实例副本,从而转换为新的众包数据集D′用以训练弱分类器,其中k=1,2,3,...,K,表示第i个实例的预测标签的类别是ck,Pr(ck|li)表示第i个实例工人标记为ck的标签对该实例所有标签的占比,计算实例所属类别公式如下:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110309301.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top