[发明专利]一种检测串谋的众包方法在审
申请号: | 202210517901.2 | 申请日: | 2022-05-12 |
公开(公告)号: | CN114997598A | 公开(公告)日: | 2022-09-02 |
发明(设计)人: | 徐文涛;丁鑫怡;韩焘;方毅立 | 申请(专利权)人: | 浙江工商大学 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06 |
代理公司: | 杭州奥创知识产权代理有限公司 33272 | 代理人: | 王佳健 |
地址: | 310018 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 检测 方法 | ||
本发明公开了一种检测串谋的众包方法。本发明将众包工人与工人之间的关系映射到图,并提出了一种基于图的串谋检测方法,通过本发明可以检测到工人中的串谋团体,捕捉非正常行为工人之间的协作关系;通过检测出串谋团体后,过滤掉串谋工人产生的数据,很大程度提高了被串谋工人影响后数据集的质量。
技术领域
本发明涉及一种众包方法,具体是一种检测串谋的众包方法。
背景技术
众包是在众包平台等平台上通过佣金招募大量匿名员工来解决发布任务的一种方式,它广泛应用于图像标注、翻译、情感分析等任务中。它帮助人们收集真实世界的数据,或者是有创造性的数据。Amazon Mechanical Turk是最著名的平台之一,任务请求者可以使用它将任务分配给不同的工作人员,这也是近年来众包变得如此普遍的一个主要原因。
考虑到单个工人的不可靠性,众包通常的做法是分配多余的任务,并雇佣多个工人来完成相同的任务。然后,聚合算法应用于工人的回答,以推断高质量的任务答案。值得注意的是,有研究提出,迄今为止大多数的真值发现方法都是基于以下,即来自工人的不可靠的回答通常是由于自然中不可避免的随机性,例如粗心、缺乏知识等。然而,这种金钱奖励已经开始吸引恶意工人通过一些策略来赚取更多,比如抄袭,串通答案和协作等串谋策略,最近的研究表明,在众包平台上的工人之间往往存在隐藏的合作网络。虽然目前的众包平台不支持这种串谋行为,但工人仍然可以通过多个渠道组成自己的群体,这可能会严重损害众包任务的独立性和多样性。
如何识别众包平台中的恶意工作者,以及如何减少这些恶意行为对收集数据质量的影响,是众包社区面临的主要挑战,有一些相关的检测方法被提出。Ashiqur RKhudaBukhsh,等人在2014年提供了一种在众包中面对非对抗性共谋时的共谋检测方法。然而,这种方法只对基于意见的评分任务有效。对于工人的重复提交,Peng-Peng Chen等人在2018年提出了一种防御机制。他们通过工人绩效的变化率来判断众包中串谋的工人,其变化率的特点是不断的删除工人的答案来计算删除前后数据的信息熵的变化。MinghongFang等人在2021年针对于工人的恶意回答提出了一种防御机制,但这种方法有一个太强的假设,即必须知道众包系统正在受到攻击,且知道攻击者攻击的目标。
发明内容
本发明针对现有技术的不足,提供了一种检测串谋的众包方法。
本发明包含以下步骤:
步骤1,请求者将任务发给众包平台来发布;
步骤2,众包平台根据平台的规定以及一定的分配策略对任务进行分配、收集和处理;
步骤3,对平台处理完之后的任务进行串谋检测;
步骤4,对收集得到的众包任务以及答案进行串谋检测后,如果为正常工人的提供的答案则跳转至步骤5,如果是串谋工人提供的答案便过滤掉并跳转至步骤6;
步骤5,对收集得到的任务答案进行汇聚并返回给请求者;
步骤6:将检测到的串谋工人在众包平台做记录。
其中步骤4中,所述串谋检测包括:
获取任意两个独立的工人对同一任务回答完全一致的概率;
将所述概率的倒数记为k-shell分解算法中的节点与节点之间得权重,计算每个节点的串谋权重,通过串谋权重与该节点阈值的比较,判断该节点所代表的工人是否为串谋工人。
本发明的有益效果:本发明将众包工人与工人之间的关系映射到图,并提出了一种基于图的串谋检测方法,通过本发明可以检测到工人中的串谋团体,捕捉非正常行为工人之间的协作关系;通过检测出串谋团体后,过滤掉串谋工人产生的数据,很大程度提高了被串谋工人影响后数据集的质量。
附图说明
图1为本发明的框架图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工商大学,未经浙江工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210517901.2/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理