[发明专利]一种面向不平衡财务文本数据的风险预警方法及系统在审
| 申请号: | 202110672882.6 | 申请日: | 2021-06-17 |
| 公开(公告)号: | CN113506160A | 公开(公告)日: | 2021-10-15 |
| 发明(设计)人: | 王红;熊淑贤;程恩浩;宋曙光 | 申请(专利权)人: | 山东师范大学 |
| 主分类号: | G06Q40/00 | 分类号: | G06Q40/00;G06Q40/06;G06F40/194;G06K9/62;G06N20/00 |
| 代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 祖之强 |
| 地址: | 250014 山*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 面向 不平衡 财务 文本 数据 风险 预警 方法 系统 | ||
1.一种面向不平衡财务文本数据的风险预警方法,其特征在于:包括以下过程:
获取待处理的财务文本数据;
根据获取的财务文本数据和预设评估模型,财务文本数据真实性评估结果;
根据真实性评估结果与预设阈值的对比,进行财务数据的风险预警;
其中,预设预测模型的训练过程中,对不平衡财务文本数据进行插值处理以使得正负样本数据的差异在预设范围内。
2.如权利要求1所述的面向不平衡财务文本数据的风险预警方法,其特征在于:
预设预测模型的训练过程中,对不平衡财务文本数据进行筛选,包括以下过程:
根据获取的财务文本数据得到财务文本数据中的特征数据,当某个特征缺失的样本数量占比大于第一阈值时,将该特征舍弃;当某个特征缺失的样本数量占比在第二阈值与第一阈值之间时,将该特征对应的数据全部用均值填补;当某个特征数据缺失的样本数量占比小于第二阈值时,将该特征对应的数据用随机森林算法填补。
3.如权利要求1所述的面向不平衡财务文本数据的风险预警方法,其特征在于:
用随机森林算法填补,包括以下过程:
选择数据的中位数或众数作为当前的估计值;
使用填补后的数据集训练随机森林模型,记录每一组数据在决策树中的分类路径;
建立一个相似度矩阵,根据分类路径计算数据之间的相似度,用相似度矩阵加权求均值作为新的估计值;
迭代预设次数后,得到最后的估计值。
4.如权利要求1所述的面向不平衡财务文本数据的风险预警方法,其特征在于:
对不平衡财务文本数据进行插值处理,包括以下过程:
对于少数类中一个样本a,以欧氏距离为标准,计算它到少数类样本集中所有样本的距离,得到它的k个近邻;
对于少数类样本a,从其k近邻中随机选择一个样本b;
对于选出的近邻b,生成一个0到1之间的随机数ζ,合成一个新样本c;其中,合成公式为:c=a+ζ·|b-a|;
重复进行上述步骤,直到正负样本数量差异在预设范围内。
5.如权利要求1所述的面向不平衡财务文本数据的风险预警方法,其特征在于:
预设预测模型,包括两层,第一层选择K近邻算法、随机森林、支持向量机、EasyEnsemble、Balanced Bagging Classifier这5个基本分类器作为基学习器,第二层采用简单模型决策树作为元学习器。
6.如权利要求5所述的面向不平衡财务文本数据的风险预警方法,其特征在于:
对每个基学习器进行五折交叉验证,每次交叉验证对训练集测试数据进行预测得到结果a,对测试集数据进行预测得到结果b,将a按行合并得到该基学习器对训练集的预测结果A,将b按列相加取平均得到该基学习器对测试集的预测结果B,按列合并所有的A作为第二层模型的训练集数据,按列合并所有的B作为第二层模型的测试集数据,并以原始集的标签作为新生成数据集的标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110672882.6/1.html,转载请声明来源钻瓜专利网。





