[发明专利]一种基于POMDP模型的众包平台任务分配方法有效

专利信息
申请号: 201811254337.X 申请日: 2018-10-19
公开(公告)号: CN109409739B 公开(公告)日: 2021-10-26
发明(设计)人: 刘峰;夏志伟;张弛;曾虎双 申请(专利权)人: 南京大学
主分类号: G06Q10/06 分类号: G06Q10/06
代理公司: 暂无信息 代理人: 暂无信息
地址: 210093 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种基于部分可观测马尔科夫决策过程的众包平台任务分配方法包括如下步骤:1)准备阶段,准备平台运营数据,根据一定格式对数据进行标准化处理,形成标准数据集。2)建模阶段,首先根据平台特性建立POMDP平台初步模型,再根据数据集中的数据进行训练补充完成POMDP平台模型,生成POMDP文件。3)决策阶段,使用POMDP求解程序对POMDP文件进行求解,得到策略,应用于实际任务的决策支持当中。
搜索关键词: 一种 基于 pomdp 模型 平台 任务 分配 方法
【主权项】:
1.一种基于部分可观测马尔科夫决策过程的众包平台任务分配方法,该方法包括如下步骤:1)准备阶段a)准备日常的数据,即历史任务信息。b)确定常数参数,包括工人等级数、任务种类数等。c)对历史数据进行格式转换,按照特定的数据格式,对数据进行预处理。2)建模阶段a)根据应用的数据,确定状态、动作、观察、折扣银子等POMDP模型中的简单元素。b)根据数据集进行函数学习,完成收益函数、状态转移函数、观察函数等POMDP模型中的复杂元素。c)根据需要提供决策支持的任务种类,确定初始信念状态。d)将2‑a)中的初步模型与2‑b)中得到的函数以及2‑c)中的初始信念状态结合,得到最终的POMDP平台模型。e)根据标准POMDP模型文件的格式将POMDP平台模型转化为POMDP文件。3)决策阶段a)使用POMDP求解程序求解2‑e)中得到的POMDP文件,求解得到从信念状态到动作映射的策略。b)使用得到的决策,根据当前信念状态得到最优动作。c)执行最优动作,更新信念状态等信息,重复执行b)直至终止。其中步骤1‑c)所述的数据格式说明:1)数据格式需要满足特定的数据结构,首先定义的是一些集合:任务种类集合T,工人等级集合L,任务完成质量集合Q={A,B,C,D},评估结果集合B={true,false}。2)以下是历史信息的结构:任务记录集合M={m1,m2,...,mk}中的每个元素包含了一次任务的全部信息。每条任务记录mi={P,t,r}有其对应任务执行过程集合P={p1,p2,...,pn}、任务种类t∈T以及任务请求方支付的酬劳对于每次任务执行过程pi=(ti,li,ci,bi),有对应的种类ti,工人等级li,支付的酬劳ci,评估结果bi。其中种类ti∈T,工人等级li∈L,支付酬劳关于评估结果bi,当i<n时,bi=false,当i=n时,bi=true。其中步骤2‑a)所述的模型说明:1)状态(S):一共有两种类型的状态,一种是正在执行中的状态(q,t),另一种是终止状态。正在执行的状态有两个元素,完成质量q和任务种类t,因此该种状态是种类和完成质量的笛卡尔积,数量是种类数乘以完成质量数。终止状态表示任务被提交,已经返回给需求方。2)动作(A):一共有两种类型的动作:分配(assign)和完成(complete)。完成动作表示系统将任务终止,并返回给需求方。分配动作表示将任务分配给某一特定的工人群体,工人群体有两个元素,种类t和等级l,因此分配动作的数量为种类数乘以等级数,这里工人的种类与任务种类相同。3)观察(Z):一共有两种观察:true和false。每次进行动作之后,众包平台都会对任务进行质量评估,评估通过则设观察值为true,否则为false。其中2‑b)的收益函数学习过程说明:1)收益函数的格式为设转移前状态为s,动作为a,转移后状态为s’,关于动作a分情况讨论。2)如果动作a是分配动作,搜索动作a所对应的任务种类的所有任务执行记录组成的集合Ma={m|m∈M,m的种类与a的种类相同},在集合Ma的任务执行过程中获取与动作a对应工人等级相同的任务执行过程组成的集合Pa={p|p∈m.P,m∈M’,p的工人等级与a的工人等级相同},计算Pa平均支付酬劳,取负后为收益,如果Pa是空集,则设R为负无穷,即:3)如果动作a是结束动作,如果状态s为终止状态,则R=0,否则有状态s=(q,t)检索状态s所对应的任务种类中所有任务执行记录组成的集合Ms={m|m∈M,m的种类与s的种类相同},计算其平均酬劳,如果Ms是空集,则报错,发生数据缺失,即:其中2‑b)的状态转移函数学习过程说明:设转移前状态为s,动作为a,转移后状态为s’,概率分情况讨论:1)首先关于动作a分类讨论,如果动作a为完成动作,那么任务必定进入终止状态,即对s’=e,转移概率τ=1,对s’≠e时,概率τ=0。2)对于a是分配动作,关于转移前状态s分类讨论,如果转移前状态s为终止状态,那么类似情况1),转移后状态s’也一定是终止状态。如果转移前状态s不是终止状态,此时动作a是分配动作,那么转移后状态一定不是终止状态,即对转移后状态为终止状态,转移概率τ=0。3)最后一种情况是转移前后状态s和s’都不是终止状态,动作a是分配动作。如果转移前后状态s和s’的任务种类不同,概率τ=0。对于转移前后状态s和s’状态任务种类相同,这里使用历史数据进行学习,学习过程如下:4)以任务种类X为例,从M中取出所有任务种类为X的任务记录的集合MX={m|m∈M,m的任务种类为X}。关于所有m∈MX,考察执行序列P={p1,p2,...,pn},新设一个对应的跃迁集合U={u1,u2,...,un},其中ui表示pi发生了质量跃迁的概率,即质量发生了提高的概率。初始质量为D,最终质量为A,发生了3次跃迁。故有在执行了pn之后,必然发生了质量由B到A的跃迁,即un=1(*),故ui的值与pi对应的工人等级li相关,不同工人等级对应的ui与工人的平均酬劳线性相关,即uH∶uM∶uL=RH∶RM∶RL,其中RH,RM,RL的计算方法为收益函数中分配动作的计算方法。联立(**)(***)可解得所有ui,然后对于所有的m∈MX中对应uH,uM,uL求均值,得到最终的UH,UM,UL。在状态转移函数中,由动作a对应的工人等级l,得到其对应的质量跃迁概率ul,则对于转移前状态s,如果s的任务质量为A,则转移后状态质量为A的概率为1,其它状态的概率为0。如果任务质量不为A,则状态发生跃迁的概率为ul,保持原状态的概率为1‑ul,其它状态的概率为0,即:其中2‑b)的观察函数学习过程说明:记动作为a,转移后状态为s,获得的观察为z。如果动作a是终止动作或状态s是结束状态,则观察值为true的概率为1,为false的概率为0,如果动作a是分配动作,则状态s是执行中状态,此时观察函数取决于状态的完成质量q,关于q分情况讨论:当q∈{C,D}时,观察值为true的概率为0,为false的概率是1。当q=B时,观察值为true的概率为0.2,为false的概率是0.8。当q=A时,观察值为true的概率为0.8,为false的概率是0.2。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811254337.X/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top