[发明专利]一种在高斯混合模型数据学习中避免浮点溢出的方法在审
申请号: | 201710727284.8 | 申请日: | 2017-08-23 |
公开(公告)号: | CN107578103A | 公开(公告)日: | 2018-01-12 |
发明(设计)人: | 陆成刚 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06N5/02 | 分类号: | G06N5/02 |
代理公司: | 杭州斯可睿专利事务所有限公司33241 | 代理人: | 王利强 |
地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 混合 模型 数据 学习 避免 浮点 溢出 方法 | ||
技术领域
本发明属于数据处理方法,涉及一种在高斯混合模型数据学习中避免浮点溢出的方法。
背景技术
高斯混合模型(Gaussian Mixture Model)是一个重要而常用的聚类、概率密度拟合方法。在使用高斯混合模型对数据进行建模训练学习的过程中,如果数据数值分布差异的绝对范围极小(这并不意味着数据靠近某常数值发生微小扰动,而有可能是数据本身绝对值都很小,这时候它们的扰动幅度绝对值也较小,而相对数据本体来说扰动较大)、数据又是高维度矢量,很容易造成正态分布概率密度值的溢出。这里的溢出是指在计算机程序中使用常规的双精度double格式数据的溢出,这是浮点数溢出。
高斯混合模型的训练学习依赖于期望最大算法(EM),具体做法如下:
对d维矢量数据计算后验概率其中j标记为期望最大算法的第j次迭代;表示高斯混合模型的第i支高斯分布;而为第i支高斯分布的均值向量和协方差矩阵;表示第i支高斯分布的权重,n表示分支总数。在第j+1次迭代时,作更新
此处N表示参与学习的数据数目总数。
每支高斯分布的表示式有关概率密度值在计算时溢出主要体现在这些方面,由于是有界量,所以主要与有关。在假定协方差阵为对角阵时(σk为对角线上元素),当原始数据的变动的绝对范围很小,主要体现在每一个维度上的σk都很小,如前所述,这并不意味着数据都极其近似于某个常数那样简单,而有可能是数据本身的绝对值就极小。当数据又是高维度矢量时,|Σ|是极小的,它在分母上导致这个量非常大,从而溢出。此外,当溢出时进一步影响后验概率的计算。为了解决这个问题,常规的思路是对σk数据进行线性放大即乘以一个倍数,但这是治标不治本的,无法适应实际数据的变化的丰富性。
发明内容
为了克服已有高斯混合模型对数据进行建模训练学习中无法避免浮点数溢出的不足,本发明提供了一种有效避免浮点溢出的在高斯混合模型数据学习中避免浮点溢出的方法,采用一个自适应的方法对数据进行自动缩放,但又不影响计算的结果。
本发明解决其技术问题所采用的技术方案是:
一种在高斯混合模型数据学习中避免浮点溢出的方法,对作免溢出计算、并作自动缩放,表示高斯混合模型的第i支高斯分布,为d维矢量数据,为第j次迭代时第i支高斯分布的均值向量和协方差矩阵,首先简化该式子为其中,σik为对应于第i支的高斯分布的第k维分量对应的方差,e表示自然常数,n表示高斯混合模型的部件支数,为参与训练学习的数据样本;
所述方法包括以下步骤:
1)计算对数形式的概率密度值
2)对n支算出的密度值中取最大值对应的标号imax;
3)计算缩放的概率密度值:
其中,σkimax表示n支高斯分布里取到概率密度值最大的那一支高斯分布的第k维分量的方差,表示第j次迭代时n支高斯分布里取到概率密度值最大的那一支高斯分布的均值向量;
4)转成指数形式
5)计算这一组概率密度值决定的后验概率值其中,表示第j次迭代时第i支高斯分布的概率权重,表示第j次迭代时第s支高斯分布的概率权重,ps'表示第s支高斯分布计算的缩放的概率密度值的指数形式;
以上诸pi'值是有界的,不再溢出;但又不影响到值。
本发明的有益效果主要表现在:在使用期望最大算法进行高斯混合模型的数据学习和训练时,能够避免任意一个数据在任意一支高斯分布的概率计算的溢出。
附图说明
图1是一种在高斯混合模型数据学习中避免浮点溢出的方法的流程图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1,一种在高斯混合模型数据学习中避免浮点溢出的方法,对作免溢出计算、并作自动缩放,表示高斯混合模型的第i支高斯分布,为d维矢量数据,为第j次迭代时第i支高斯分布的均值向量和协方差矩阵,首先简化该式子为其中,σik为对应于第i支的高斯分布的第k维分量对应的方差,e表示自然常数,n表示高斯混合模型的部件支数,为参与训练学习的数据样本;
所述方法包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710727284.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:塔式生物沉降过滤一体化装置
- 下一篇:一种污泥回收处理装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置