[发明专利]一种基于无监督机器学习算法的极值预测方法有效
| 申请号: | 202110886366.3 | 申请日: | 2021-08-03 |
| 公开(公告)号: | CN113554183B | 公开(公告)日: | 2022-05-13 |
| 发明(设计)人: | 戴宝锐;李奇 | 申请(专利权)人: | 同济大学 |
| 主分类号: | G06N20/00 | 分类号: | G06N20/00;G06N3/08;G06K9/62 |
| 代理公司: | 上海科律专利代理事务所(特殊普通合伙) 31290 | 代理人: | 叶凤 |
| 地址: | 200092 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 监督 机器 学习 算法 极值 预测 方法 | ||
本发明公开一种基于无监督机器学习算法的极值预测方法,属于数理统计技术领域。本发明是为了解决现有的极值预测方法对于不满足独立同分布(IID)假设的数据集预测精度较低的问题。本方法包括:构建基于广义极值混合模型(GEVMM)的聚类算法;采用构建的聚类算法对区块最大值样本集进行聚类;采用聚类效果评价指标选择最佳聚类簇数;根据最佳聚类簇数对应的GEVMM的概率累积分布函数(CDF)进行未来一段时间内的极值预测。本发明所述技术方案操作方便,应用场景广阔,能够提高具有混合分布特征的数据集的极值预测精度。
技术领域
本发明涉及数理统计技术领域。更具体地,涉及一种基于无监督机器学习算法的极值预测方法,应用于桥梁极端荷载效应预测。
背景技术
极值是指数据集中的最大值或最小值。极值预测被广泛应用于土木工程、网络通讯、水文学、气象学、经济学等各个领域中。这些行业的从业人员常常需要根据有限的时间相关性数据预测未来一段时间内的数据极值,以评估某一极端事件发生的风险。
常用的极值预测方法包括基于广义极值(GEV)分布的方法和基于广义Pareto(GP)分布的方法等。这些方法的应用需要基于样本数据集满足IID的假设。然而,现实世界中存在的一些随机现象,如土木工程领域的由交通流引起的桥梁荷载效应或者气象学领域的风速,往往是由不同类型的荷载事件或天气引发的,一般不满足IID假设。因此,直接应用这些极值预测方法来预测未来一段时间内的数据极值通常会产生较大的误差。
为了解决上述问题,国内外一些学者提出将样本数据集按照事件类型分类,然后根据不同类型的事件发生的概率和满足的分布规律组合成一个联合概率分布模型,再根据联合概率分布模型预测未来一段时间内的数据极值。这一类方法能够在一定程度上解决传统极值预测方法预测精度过低的问题,但也存在明显的缺点。比如,根据事件的类型进行样本数据的分类在理论上可行,但实际操作往往具有主观性,容易造成不合理的分类结果。另外,有时候测量数据中只包含单纯的数据值而未记录事件类型,此时要实现样本数据的分类根本无从下手。
采用聚类这样一种无监督机器学习算法可以自适应地分类样本数据集中的数据,对于预测不满足IID假设的数据的极值提供了新的思路。
发明内容
本发明的目的在于提供一种基于无监督机器学习算法的极值预测方法,解决现有的极值预测方法对于不满足IID假设的样本数据集预测精度较低的问题。
为达到上述目的,本发明采用以下技术方案:
一种基于无监督机器学习算法的极值预测方法,包括以下步骤:
S1、构建基于GEVMM的聚类算法;
S2、采用构建的聚类算法对区块最大值样本集进行聚类;
S3、采用聚类效果评价指标选择最佳聚类簇数;
S4、根据最佳聚类簇数对应的GEVMM的CDF进行未来一段时间内的极值预测。
优选地,所述步骤S1中GEVMM的概率密度函数(PDF)表示为:
其中,m是GEVMM中包含的广义极值模型(GEV)个数,ξj,σj,μj分别表示第j个GEV分布的形状参数、尺度参数和位置参数,πj表示第j个GEV分布的权重,f(x|ξj,σj,μj)表示第j个GEV分布的PDF。
引入拉格朗日乘数项λ,采用对数似然函数估计GEVMM的参数ξj,σj,μj和πj:
其中,n是最大值数据集中的数据个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110886366.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种再生混凝土搅拌桩施工方法
- 下一篇:一种新型工频UPS电源





