[发明专利]一种基于自适应Dropout非负矩阵分解的特征学习模型有效
申请号: | 201611159985.8 | 申请日: | 2016-12-15 |
公开(公告)号: | CN106779090B | 公开(公告)日: | 2019-03-08 |
发明(设计)人: | 刘杰;何志成;刘才华;王嫄 | 申请(专利权)人: | 南开大学 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 天津佳盟知识产权代理有限公司 12002 | 代理人: | 侯力 |
地址: | 300071*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自适应 dropout 矩阵 分解 特征 学习 模型 | ||
一种基于自适应Dropout非负矩阵分解的特征学习模型。本发明基于对NMF中隐藏特征之间关系的分析,提出一种基于自适应Dropout非负矩阵分解的特征学习模型(Adaptive Dropout Non‑negative Matrix Factorization),能够主动学习隐藏特征之间的相异度,并将其转化为隐藏特征的数据表示能力。然后在此基础上构造概率函数,并对隐藏特征进行Dropout,从而降低隐藏特征在优化过程中的相互影响,提高隐藏特征的语义独立性。本发明具有良好的可解释性和泛化性,能够在文本和图像数据上取得明显的性能提升,并能够应用到已有的基于NMF的算法中。此外,本发明还具有良好的可并行性,可以部署到并行平台上运行,用来处理大规模数据。
技术领域
本发明属于计算机应用技术领域,具体涉及数据挖掘和机器学习,特别是基于自适应Dropout非负矩阵分解的特征学习模型。
背景技术
随着互联网技术的发展,社交网络的兴起,信息的获取和分享手段越来越便捷,互联网中充斥着大量的文本、图像等非结构化数据。同时,由于数据发布时的随意性、不规范性等问题,数据中存在大量的噪声。即使在经过数据清洗之后,数据也面临着数据稀疏、维度过高等问题。因此,在进行聚类、分类、推荐等任务之前,往往先需要进行特征学习。
非负矩阵分解(Non-negative Matrix Factorization,NMF)是近年来较为流行的多变量分析模型,因其在文本和图像等数据上具有良好的可解释性,在数据挖掘领域有着十分广泛的应用。通过对输入数据矩阵和输出隐藏特征矩阵以及系数矩阵采用非负约束,得到文本和图像的表示,并进行文本聚类和图像恢复[1][2]。而Cai和He等人在此基础上,采用关系图来约束数据在隐含空间中的表示,提高了非负矩阵分解模型在文本聚类中的性能[3]。而在[4]中,作者提出一种关系约束的矩阵分解模型,融合数据间关联关系和数据内容,抽取隐含特征,并在文本分类数据中取得良好效果。Takeuchi等人则将多个非负矩阵共同分解,融合用户记录、用户社交关系和歌曲标签,得到用户和歌曲的统一表示,并进行歌曲推荐[5]。
然而,现有的NMF模型相关的研究成果,往往是通过对输入输出矩阵进行变换或对目标函数增加正则化因子来进行的,缺少对隐藏特征之间关系的分析和利用。在实际应用中,由于缺乏领域先验知识和辅助信息,现有的基于NMF的模型中所采用的矩阵变换和正则化因子往往无法构造,或受到数据稀疏、噪声等问题的影响,出现性能下降。
Dropout是一种来源于神经网络模型的优化方法,在迭代优化中通过随机选取隐藏特征的子集进行更新来打破隐藏层节点之间的共现关系,从而防止过拟合,提升模型性能[6,7]。
从对数据重构的角度来看,NMF具有与浅层神经网络类似的结构,而Zhai等人也已经将Dropout算法应用到了传统的矩阵分解当中[10]。而自适应Dropout算法通过学习隐藏特征之间的关系,来构造新的Dropout概率函数以取代传统的完全随机Dropout函数,从而实现性能的进一步提升[8,9]。
因此,本发明采用来自于神经网络中的Dropout方法[6,7],通过学习和利用隐藏特征之间的关系,从一个全新的角度来提升NMF模型的性能,使数据的隐藏特征表示具有更好的可解释性。
发明内容
本发明目的是解决现有NMF模型中存在的隐藏特征语义模糊和语义重叠的问题,提供一种基于自适应Dropout非负矩阵分解的特征学习模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611159985.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:测试方法和装置
- 下一篇:一种基于超限学习机及到达距离的周期振动信号定位方法