[发明专利]一种根据注释者辅助信息程度的标签排序的方法有效
申请号: | 201810992434.2 | 申请日: | 2018-08-29 |
公开(公告)号: | CN109145026B | 公开(公告)日: | 2021-07-16 |
发明(设计)人: | 汪海涛;贺成诚 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F16/2457 | 分类号: | G06F16/2457 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 根据 注释 辅助 信息 程度 标签 排序 方法 | ||
1.一种根据注释者辅助信息的程度排序的方法,其特征在于:包括如下步骤:
Step1:利用Mallow模型基于置换的概率排序模型构造出真实值标签与注释者之间的关系,利用P-L模型基于分数的概率排序模型构造出真实值标签与训练实例之间的关系;
Step2:整合真实值与注释者之间的关系和真实值和训练实例之间的关系得到新的概率排序模型;
Step3:利用新的概率排序模型和约束函数通过最大化对数似然学习得到最优参数集;
Step4:通过EM算法迭代更新注释者的专业知识程度的参数集,并且得到排名函数参数;
所述Step1的具体步骤如下:
设X为输入空间,其元素为实例,每个实例为一组对象,设Y是输出空间,其元素是X中实例的排名标签,X中的一个实例x(i)被表示为(x(i,1),...,x(i,No)),其中No表示x(i)中的对象的数量,每个对象由Nf维特征描述,然后x(i,j)∈RNf,排名标签y(i)∈Y,x(i)由(y(i,1),...,y(i,No))表示,其中y(i,j)是分配给对象x(i,j)的等级,参数集Θ({θ1,...,θG})表示了注释者的辅助信息的程度,G是注释者的数量;
Step1.1:对于训练实例x(i),假设真实值标签x(i)存在,利用Mallow模型构造真实值标签(y(i))与第j个注释者给出的标签之间的关系,如下:
式(1)中θj表示第j个注释者的辅助信息的程度,表示真实值标签(y(i))与第j个注释者给出的标签之间的差距;
Step1.2:对于训练实例x(i),假设真实值标签y(i)存在,利用P-L模型构造真实值标签y(i)和训练实例x(i)之间的关系,如下:
式(2)中w表示排序函数的参数向量,wT是w的转置,k、l就是一个数量计数字母;
所述Step2的具体步骤如下:
在这个模型中,参数向量w∈RNf×1代表被学习的排序函数的参数,参数集Θ({θ1,...,θG})表示了注释者的辅助信息的程度,变量y是实例x的排序标签;变量(y1,…,yG)是来自G个注释者对于实例x的排序标签,在训练中,由所涉及的注释者给出所有训练实例(x)及其相关排序标签(y1,...,yG)的值;
Step2.1:从群体中学习排序用于描述一个新的概率排序模型,排序标签y由v(=w,v)调节,其中v(v>0)是标签分数的参数化,y的值现在从先前P(y|v)中抽取,结果,实现了以下表达:
式(3)中P(y|x,w)依赖于基于分数的概率排序模型,而P(yj|y,θ)依赖于基于置换的概率排序模型;
Step2.2:设参数集Ω=(Θ,w),给定观察集D具有N个实例,x(i)表示第i个实例,似然函数Ω现在可以基于等式(3)被分解为以下表达式:
式(4)中整合了式(1)中定义的Mallow和式(2)中定义的P-L表示第i个实例的第j个排序标签;
所述Step3的具体步骤如下:
Step3.1:通过最大化对数似然来获取似然函数Ω的最大似然估计量如下:
其中表示最优辅助信息程度的参数集排序,表示最优的排序函数的参数;
Step3.2:注释者的专业知识程度之间的关系可以根据注释者的辅助信息程度等信息预先获得,在数学上,辅助信息可以描述如下:
θj≤θk (6)
式(6)表示第j个注释者的辅助信息程度的值优于第k个注释者的辅助信息程度的值;
Step3.3:将Step 3.2中对注释者的辅助信息程度的描述(6)加入到Step 3.1的式(5)中,如下:
Step3.4:考虑一个特例,其中一个注释者的辅助信息程度高于其他注释者,为了不失一般性,第一个注释者被认为拥有最优的辅助信息程度,在这种情况下,将式(7)改为如下:
Step3.5:将(7)中的约束由S形函数代替,如下所示:
式(9)中η(η≥0)反映了辅助信息的置信度,当η→0时,置信度为0,边信息失效;当η→+∞时,置信度变得很高,并且边信息应该完全满足;
Step3.6:如果在给定了η的情况下,需对式(7)进行改进,以便通过最大化对数似然来获得最大似然估计量,如下:
所述Step4的具体步骤如下:
Step4.1:计算观测数据D和真实值标签(y(i))相对于观测数据D和估计参数集Ω(t)的对数似然的期望值(E(·)),如下:
step4.2:对于任意w,Q(Ω,Ω(t))的最大化是通过Θ来获得的,如下:
式(12)中θ(t)是估计参数集Ω(t)的辅助信息的程度,w(t)是估计参数集Ω(t)的排序函数的参数;
式(12)中表示辅助信息程度为θ1时针对第i个实例的第一个排序标签与第i个实例的真实值标签(y(i))之间差距的期望;
Step4.3:对于任意Θ,通过w使Q(Ω,Ω(t))最大化等于下式的交叉熵CE的最小化;
Step4.4:当η→0时,式(12)变为:
Step4.5:通过采用二进制搜索方法来实现Θ的求解;
①对于每个表示第m个x(i)的排序集,随机选择两个指数n,q,并交换的第n和第q个元素以形成新的排序π′;
②计算对于每个i∈[1,N],如果αi>1,否则其概率为1-αi,否则如果m<Ns,m=m+1且转到①;
③计算其中Ns表示取样的数量;
④根据应用二进制搜索来获得
Step4.6:使用最大化似然估计更新w;
①使用4.5步骤计算得到的Θ(t+1);
②重复4.5中的采样步骤1和2以获得每个x(i)的排序集;
③为每个x(i)选择采样集中的最大元素,这些最大元素是这个特定迭代的估计真实值排序;
④使用最大化似然估计更新w以估计的基本事实;
⑤如果t>MaxT,或||Θ(t)-Θ(t+1)||<τ1并且||w(t)-w(t+1)||<τ2,返回w(t+1)和Θ(t+1);否则t=t+1,转到①;
最终训练所得w和Θ便是所求的注释者的专业知识程度的排序参数集Θ和排序函数参数w。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810992434.2/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置