[发明专利]一种基于哈希方法的多标记学习的学习方法有效

专利信息
申请号: 201510089183.3 申请日: 2015-02-27
公开(公告)号: CN104715021B 公开(公告)日: 2018-09-11
发明(设计)人: 吴建盛;孙永;胡海峰 申请(专利权)人: 南京邮电大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 南京知识律师事务所 32207 代理人: 汪旭东
地址: 210003 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于哈希方法的多标记学习的学习方法,该方法是利用哈希算法与基于贝叶斯统计学的多标记学习算法相结合,该方法有效地利用标记之间的相关性以提高多标记学习模型的预测性能,利用近邻的特性,将标记和标记的近邻引入到后验概率的计算中,充分考虑了标记之间的相关性,提高了算法的准确性;利用MinHash算法解决大规模数据的多标记学习中标记空间往往更加高维和稀疏的问题;利用位置敏感哈希(LSH)进行近邻查找解决大规模数据的学习问题,可以进行快速高效的近邻查找,提高了多标记学习算法的可扩展性。
搜索关键词: 一种 基于 方法 标记 学习 设计
【主权项】:
1.一种基于哈希方法的多标记学习的学习方法,其特征在于,所述方法包括如下步骤:步骤1:给定输入多标记训练数据集D={(xi,Yi)|1≤i≤m}以及测试样例xt,Yi为所对应样本xi的标记集向量;训练集样本集合X(N×m,N是样本个数,m是样本属性的维度);训练集标记集合Y(N×q,q是标签的数量);步骤2:对于训练数据集的标记集合执行MinHash降维算法,将原始的标记集合矩阵由N×q维为压缩为p×q维矩阵步骤3:对样本集合XN×m和新的标记集合分别执行LSH算法,计算出每个样本的近邻N(xi)和每个标记的近邻N(yj);步骤4:对于测试样例xt,执行LSH计算出xt的近邻N(xt);步骤5:计算每个标记yj,j=1,2,…,q的后验概率,所述后验概率是基于标记相关性扩展的后验概率公式进行计算;步骤6:根据多标记学习算法构建多标记分类器;根据多标记分类器,得到预测的标记集合,即:分类结果;所述方法的MinHash降维算法,对标记空间进行降维,其标记向量是利用样本来表示的,是一个N×1维的向量,具体为:如果xi具有标记yj,则yj(i)=1,否则yj(i)=0;所述方法包括:多标记算法的标记相关性扩展、多标记算法的MinHash降维、基于LSH的近邻查找,其中标记相关性扩展,是将标记之间的相关性引入到算法中,通过标记之间的相互影响更好的进行分类,MinHash降维,利用MinHash算法对标记空间进行降维,LSH近邻查找可以在低时间复杂度的情况下获取近邻,将算法的计算复杂度充分降低,使其可扩展到大规模数据情况的多标记学习中;标记相关性扩展包括:在基于贝叶斯统计学理论的多标记学习算法中,一个重要的步骤是计算后验概率,给定多标记训练集D={(xi,Yi)|1≤i≤m}以及测试样例x,Yi为所对应样本xi的标记集向量,对于第j个类别yj(1≤j≤q),基于贝叶斯定理的计算后验概率的公式如下:其中,Hj代表x具有类别标记yj这一事件,P(Hj|Cj)代表当N(x)中有Cj个样本具有类别标记yj时,Hj成立的后验概率,相应的,P(‑Hj|Cj)代表当N(x)中有Cj个样本具有类别标记yj时,Hj不成立的后验概率,N(x)代表x在训练集中的近邻样本构成的集合,通过贝叶斯定理转换为求先验概率和条件概率,P(Hj)与P(‑Hj)分别代表事件Hj成立与不成立的先验概率,P(Cj|Hj)与P(Cj|‑Hj)分别代表事件Hj成立与不成立时,N(x)中有Cj个样本具有类别标记yj的条件概率,先验概率和条件概率可以通过对训练集合进行统计分析得到;基于贝叶斯统计学算法采用了一阶策略来求解多标记学习问题对标记yj训练时,后验概率的公式中P(Hj|Cj)只考虑了N(x)中的样本具有类别标记yj的情况,并没有考虑其他标记对标记yj的影响,即在模型构建过程中忽略标记之间的相互影响;所述方法将标记之间的相关性考虑在内,将后验概率公式扩展为:f(x,yj)=P(Hj|C1,C2,…,Cq)/P(‑Hj|C1,C2,…,Cq)   (2)式中将其他标记引入后验概率的计算公式,充分考虑了标记之间的相互影响;在式(2)中对标记yj训练时,将所有标记yj都加入到了后验概率的计算中,在标记集合中,其他标记对标记yj的影响并不相同,有些标记甚至会产生负的影响,此外,将所有标记加入计算公式中,计算复杂度也会提高,因此,为了解决这种问题,对式(2)中的后验概率公式进行了进一步的改进,考虑到标记集合中其他标记对标记yj的影响并不相同,对后验概率中加入的其他标记进行改进,只考虑将部分标记考虑到后验概率中,其中,标记向量利用样本来表示,假设样本数量为N,则标记向量yj则是一个N×1维的(0,1)向量,具体表示为:通过对标记向量求近邻,然后选取近邻加入到后验概率的计算中,在算法的训练阶段中,对训练数据集的样本和标记进行统计,对其k近邻进行统计与分析,对标记yj训练时,通过对标记yj求近邻获取标记yj的前k个近邻标记,在后验概率的计算中,根据预先得到标记的k近邻集合,选取合适的标记加入到后验概率的公式中,实现为:假设标记yj的k近邻集合为N(yj)={i|yi是yj的近邻标记,1≤i≤q},即N(yj)中是标记yj的K个近邻标记的下标,对标记yj进行训练时,后验概率的计算公式变为:通过对标记进行选择可以更好的考虑标记之间的相关性,并且可以减少后验概率的计算复杂度。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201510089183.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top