[发明专利]基于多臂老虎机和Shapley值的群智感知数据动态交易方法在审
申请号: | 201911250169.1 | 申请日: | 2019-12-09 |
公开(公告)号: | CN111028080A | 公开(公告)日: | 2020-04-17 |
发明(设计)人: | 徐畅;司雅蕴;祝烈煌;张川;张璨;饶鸿洲 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06Q40/04 | 分类号: | G06Q40/04;G06Q30/02;G06F17/18 |
代理公司: | 北京理工正阳知识产权代理事务所(普通合伙) 11639 | 代理人: | 张利萍 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 老虎机 shapley 感知 数据 动态 交易 方法 | ||
1.基于多臂老虎机和Shapley值的群智感知数据动态交易方法,其特征在于:
群智感知场景包括两种主体对象:收集购买感知数据的“买家”,采集出售感知数据的“工人”;“买家”和“工人”之间始终存在交易关系;将交易的过程划分为多个时间轮次,一次交易的时间看作一个时间轮次;
步骤1:对感知数据的价值进行评估;
利用Shapely值,判定每个“工人”提供的感知数据能给“买家”带来的利益度,即边际贡献,该贡献包括两部分,新数据的直接贡献和冗余数据的间接贡献;根据边际贡献,评估数据的价值,一名新“工人”的数据集对于“买家”的总贡献值,等于数据集中的新数据的直接贡献与冗余数据的间接贡献之和;
步骤2:利用多臂老虎机算法作为“买家”和“工人”之间的定价模型,对数据的成交价格进行评估;
步骤3:根据步骤1得到的数据价值评估结果,确定购买数据的最优“工人”;然后,根据步骤2从选择的“工人”中得到数据成交价格评估结果,确定最优价格,依此采购数据信息。
2.如权利要求1所述的基于多臂老虎机和Shapley值的群智感知数据动态交易方法,其特征在于,所述步骤1获取边际贡献的方法为:
在时间轮次t下,将市场上所有的数据定义为所述市场是经过分割之后,各实体之间通信不存在障碍的、原市场的一个非空子集;
设“工人”ui保有的数据集为“买家”Cj保有的数据集为其中0<Ωi<<Ωj<N,N表示市场上所有的数据数量;
定义“买家”Cj在时间轮次t对数据的需求为
定义函数v(N)表示有限的数据集N的价值,即实数域,定义数据di对于一个数据集的边际贡献为:
Δdi(v,S)=v(S∪{di})-v(S) (1)
对于Shapely值,定义如下:
ψi(v,N)是所有边际贡献的平均值,即新数据对原数据集做出的贡献;新数据是“买家”没有而“工人”拥有的数据;对于一个“工人”手中持有的数据,新数据集表示为对于单个数据它所代表的直接贡献为:
对于一个“工人”,其直接贡献等于所有新数据的贡献总和,即:
间接贡献,是冗余数据在交易中由于降低了市场中相同类型的数据的价格从而对“买家”间接产生的贡献;冗余数据指新“工人”手中持有的旧“工人”所拥有的数据;间接价值的定义如下:
其中,指“工人”ui给“买家”cj的冗余数据,Φj是指“买家”cj已经访问过或者购买过数据的“工人”的集合,代表旧“工人”ul所拥有的数据集。
3.如权利要求1所述的基于多臂老虎机和Shapley值的群智感知数据动态交易方法,其特征在于,所述步骤2对数据的成交价格进行评估的方法为:
利用多臂老虎机算法中的置信区间上限模型,预估并逼近“工人”的心理价格底线,以得到最大回报;将历史上成交的价格定义为老虎机的“臂”,对于一个臂而言,Xt表示它在前t轮中被选定时收益的序列,则有实际均值r和样本均值
其中,n表示该臂被选择的次数;Xi-r是服从σ-次高斯分布的随机变量,由切比雪夫不等式:
其中,为所有样本X的方差,表示所有样本X的数学期望,ε为大于0的任意值;上式在高斯分布下,等同于:
公式(9)经整理后有:
同时考虑到在第t个轮次的时候,“买家”,也称之为“学习者”,只收集到了前t-1个轮次的样本X1-Xt-1;对每个“臂”来说,得到这个“臂”的未知均值的最大可能性候选,也就是置信区间上限UCB:
UCBi(t-1,δ)=∞,Xt-1=0 (11)
其中,表示对当前臂来说,预估的收益上限与收益均值的差值;
在模型中,一共有三个变量,由观察到的环境因素决定的二维特征向量Xt,i=(vt-1,1)T,其中vt-1表示t-1轮中某个特定数据的价值;另外,以Ip表示价格为p的臂,表示臂Ip在t-1个轮次中被选中的次数,则有
Fθ(p)代表“工人”对价格p的接受概率;表示未知的参数向量;
当选择价格pi时,令为此价格被选中的轮次;令Di∈RlX2是在臂pi下观察到的l个上下文,有:
ci∈Rl是每个价格在ni轮中观察到的对应奖励向量;利用训练数据(Di,ci),通过最小二乘估计估计系数向量的最优解采用ridge回归,有:
其中,I2是二维单位矩阵;
在该模型中,预期奖励的方差评估为则标准差表示为其中Ai,t为参数,初始化I2,在每轮中由Ai,t←Xt,iXt,iT进行迭代,并最终收敛;
在第t个轮次下有最佳的臂:
对常量满足δ为大于零的任意值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911250169.1/1.html,转载请声明来源钻瓜专利网。