[发明专利]一种基于新型随机分形理论的动态数据挖掘方法在审
申请号: | 201710151985.1 | 申请日: | 2017-03-15 |
公开(公告)号: | CN106909799A | 公开(公告)日: | 2017-06-30 |
发明(设计)人: | 何宗路 | 申请(专利权)人: | 何宗路 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100176 北京市朝*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 新型 随机 理论 动态 数据 挖掘 方法 | ||
技术领域
本发明属于非线性动力学、分形行为及时间序列建模与分析理论在大数据中的动态数据挖掘应用技术领域,尤其涉及一种基于新型随机分形理论的动态数据挖掘方法。
背景技术
识别时间序列的分形行为是动态数据挖掘中最具挑战性的问题之一。典型的随机分形行为包括统计自相似性、幂律、及长记忆性(即长程相关性),这些行为广泛发生在自然、医学、生态、水利、工程、网络、经济及金融等复杂系统。发现自相似序列、增长或缩短长相关程度等方法带来各种用途。例如,自相似在网络流量、股市动态、生理信号等许多领域有着重要应用。股票收益长记忆性意味着股价波动具有一种持久性或长期依赖性,对资产定价模型的效力具有潜在的重要影响,因而增长股市收益长记忆性具有重大经济价值。
分形数据挖掘利用数据集分形维数的意义对数据集进行挖掘,目前在分形维数在特征属性选择、聚类、关联规则、分类和预测等方向上,在网络数据挖掘、金融数据分析、地理信息挖掘等领域中有一定的应用。分形数据挖掘技术面临诸多挑战,比如如何判断数据集具有分形特征、如何快速计算数据集的分形维数、如何在计算机上模拟实现、如何解释数据集分形维数的实际意义等。这些问题主要归因于分形维数自身,包括1)分形维数作为普适的复杂性标度律被引进,然而它即不是一个合格的标定律,又不能确定一个分形模式。分形维数有很多定义方式,如豪斯道夫维数、信息维数、关联维数、相似维数、容量 维数、多重分形谱、填充维数、分配维数、李雅普洛夫指数、集团维数、质量维数、微分维数、布里格维数、模糊维数、广义维数等。同一对象的分形维数估计值可以由于计算方法不同而不同,相同的分形维数可以对应不同的分形模式。2)分形维数的难以估计导致无法快速计算数据集的分形维数。大多通过统计或近似的方法得到,例如计算最常用的豪斯多夫维数,一般要通过计盒维数估计到它的一个上界和通过局部维数估计到它的一个下界。3)经典的分形过程如离散的分形布朗运动,它的不可迭代性使得难于在计算机上实现模拟。4)分形维数与分形行为之间,无论是解析关系还是直观关系都不清楚,阻碍了分形方法参与精确建模,像对石油储层裂缝这样的分形现象的精细描述还依然是石油地质界未能完全解决的世界性难题。分形维数被编入经典的时间序列模型试图实现精确建模,但是又带来新的问题,例如经典的ARFIMA分形过程建模需要计算非常大的样本逆矩阵。5)分形维数作为标度律没有明确的物理意义,所以无法提供关于分形行为及其相关现象的成因。例如无法解释为什么新兴市场普遍存在长记忆性,而像美国那样的国际性市场却不存在显著的长记忆性的现象。
识别时间序列的生成机制是动态数据挖掘的最高宗旨。利用数据生成机制可望揭示动态特征的形成和控制机制、以及对未来的数据进行推断和预测。然而现有的动态数据和分形数据挖掘方法不提供数据集的生成过程。许多模型如时间序列ARMA和ARCH模型,技术如模糊建模、神经网络、遗传算法、数学优化及自组织法,被用于提取动态数据中有用信息,通常得出结果,而不能解释结果,更不提供数据集的生成过程。另一方面,动态特征和分形行为与观察尺度密切相关,过小的观察尺度会影响完整地反映数据生成机制,过大的观察尺度会因为样本的时间跨度过大,使得无法收集到足够反映系统的样本数,或者导致资源浪费和因为时效失去数据价值。因此识别足够反映复杂系统的动态 特征和分形行为的最小观察尺度的生成过程将产生重大价值。例如水文尺度问题就被列入21世纪水文学基础研究的前沿课题。从目前学术研究或专利来看,尚无基于物理学原理从系统入手导出的模型被用于非线性动态特征和随机分形行为的方法和技术。近年、通过牛顿运动第二定律在一类随机自律恢复调节系统的应用、然后经过离散化,导出一类非线性自回归整合(NLARI)过程。这类具有自律恢复调节的系统也称随机弹性系统广泛地存在于自然、生态、医学、工程、经济和社会等许多实际系统中。NLARI过程可以被特定如下:
让Yt=Xt-μt,方程(1)可被改写为
在那里
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于何宗路,未经何宗路许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710151985.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:变压器用密封试验装置
- 下一篇:一种锂离子动力电池密封性检测装置
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用