[发明专利]一种基于数据挖掘的建模方法及系统在审
申请号: | 201910528701.5 | 申请日: | 2019-06-18 |
公开(公告)号: | CN110457360A | 公开(公告)日: | 2019-11-15 |
发明(设计)人: | 汪尚;闫秀媛 | 申请(专利权)人: | 北京易莱信科技有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/26 |
代理公司: | 11611 北京聿华联合知识产权代理有限公司 | 代理人: | 张文娟;朱绘<国际申请>=<国际公布>= |
地址: | 101100北京市通州区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 源数据 建模 目标模型 数据类型 角色 自变量 模型表达式 模型构建 模型类型 人员技术 数据构建 数据挖掘 用户操作 复杂度 模型库 因变量 预设 分析 保证 | ||
1.一种基于数据挖掘的建模方法,其特征在于,所述方法包括:
步骤S1、获取有建模需求的源数据集;
步骤S2、对源数据集进行分析,确定源数据集中所有源数据的数据类型和数据角色;
步骤S3、利用预设的模型库根据源数据的数据类型和数据角色提供目标模型的模型类型和模型表达式;
步骤S4、利用各角色源数据对应的数据值计算获取各目标模型的最终表达式。
2.如权利要求1所述的方法,其特征在于,所述数据角色包括:因变量、自变量和次要数据。
3.如权利要求1或2所述的方法,其特征在于,在所述步骤S2中,具体包括:
对源数据集进行分析,确定源数据集中所有源数据的数据类型;
根据各源数据和对应的数据类型确定源数据集中是否包含角色为因变量的源数据;
若包含,则分别选取角色为因变量的源数据和角色为自变量的源数据;若不包含,则选取角色为自变量的源数据。
4.如权利要求1~3所述的方法,其特征在于,在所述步骤S4中,按照如下步骤计算获取各目标模型的最终表达式:
步骤A1、若目标模型的算法类型为监督式,模型类型为指数平滑模型,则由用户输入设定的平滑常数β,并通过下式获取目标模型的最终表达式:
ya=βxa+(1-β)ya-1
其中,a∈[1,n],y0=x1;
步骤A2、若目标模型的算法类型为监督式,模型类型为逻辑回归模型,则通过以下操作获取目标模型的最终表达式:
根据目标模型的模型类型建立源数据集对应的自变量数据矩阵;
通过令如下等式成立确定针对类别t的模型参数向量βt的估计值并根据模型参数向量的估计值确定目标模型的表达式;
其中,
式中,xa为自变量数据中第a条记录对应的自变量向量,xa′为第a条记录对应的自变量数据矩阵的转置矩阵,为针对类别t的模型参数向量估计值向量矩阵转置矩阵,ya为第a条记录对应的因变量数据,yta*为第a条记录对应的因变量数据针对类别t的所属结果;t∈(1,T);
步骤A3、若目标模型的算法类型为监督式,模型类型不为指数平滑模型或逻辑回归模型,则通过以下操作获取目标模型的最终表达式:
根据目标模型的模型类型建立源数据集对应的自变量数据矩阵;
利用所述自变量数据矩阵和目标模型的类型计算模型参数向量的估计值;
根据模型参数向量的估计值返回获得目标模型的估计参数值,将所述估计参数值代入目标模型的表达式中确定目标模型的最终表达式;
步骤A4、若目标模型的算法类型为非监督式,则由用户指定需求的聚类数量K,根据所述聚类数量确定K个聚类中心,并通过下式确定最终的模型聚类结果:
其中,μl是类别Cl的聚类中心,第a条记录中的自变量数据xa属于类别Cl,l∈[1,K],d(xa,μl)表示第a条记录的自变量数据在D个维度上分别与类别Cl类中心的距离的平方和,xan代表xa在第m个维度上的数值,m和D取正整数,m∈[1,D]。
5.如权利要求4所述的方法,其特征在于,在所述步骤A2中,通过下式根据模型参数向量的估计值确定目标模型的表达式:
其中,
式中,表示逻辑回归模型的最终因变量类别结果,T为因变量数据对应的总类别数量,为因变量y的第a个元素属于第t个类别的概率,为y的第a个元素属于第T个类别的概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京易莱信科技有限公司,未经北京易莱信科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910528701.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种关联性分析方法
- 下一篇:特征数据获取方法、装置、计算机设备和存储介质