[发明专利]一种面向不平衡财务文本数据的风险预警方法及系统在审
| 申请号: | 202110672882.6 | 申请日: | 2021-06-17 |
| 公开(公告)号: | CN113506160A | 公开(公告)日: | 2021-10-15 |
| 发明(设计)人: | 王红;熊淑贤;程恩浩;宋曙光 | 申请(专利权)人: | 山东师范大学 |
| 主分类号: | G06Q40/00 | 分类号: | G06Q40/00;G06Q40/06;G06F40/194;G06K9/62;G06N20/00 |
| 代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 祖之强 |
| 地址: | 250014 山*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 面向 不平衡 财务 文本 数据 风险 预警 方法 系统 | ||
本公开提供了一种面向不平衡财务文本数据的风险预警方法及系统,获取待处理的财务文本数据;根据获取的财务文本数据和预设评估模型,财务文本数据真实性评估结果;根据真实性评估结果与预设阈值的对比,进行财务数据的风险预警;其中,预设预测模型的训练过程中,对不平衡财务文本数据进行插值处理以使得正负样本数据的差异在预设范围内;本公开直接对获取的财务文本数据进行处理,实现了高效和准确的财务造假风险预警。
技术领域
本公开涉及文本数据处理技术领域,特别涉及一种面向不平衡财务文本数据的风险预警方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术,并不必然构成现有技术。
不同行业、不同规模的上市公司数量不断增加,然而近年来屡屡出现上市公司的财务数据造假和暴雷,甚至还出现了流动性危机及信用债违约等问题。面对上市公司多年的财务数据报告,专业投资者的任务就是考虑诸多相关因素,对数据指标进行筛选跟踪分析研究,判断上市公司财务数据是否稳定,识别真实性,避免投资踩雷。
发明人发现,现今普遍流行的财务数据风险预警方法是聘用经验丰富的会计对财务文本数据进行人工分析,但这种方法需要耗费大量的人力、物力、财力,准确性较差,且有一定滞后性;而且,针对财务系统的文本数据除表述方式存在差异性,在进行相应的大数据分析和处理时存在较大的误差。
发明内容
为了解决现有技术的不足,本公开提供了一种面向不平衡财务文本数据的风险预警方法及系统,直接对获取的财务文本数据进行处理,实现了高效和准确的财务风险预警。
为了实现上述目的,本公开采用如下技术方案:
本公开第一方面提供了一种面向不平衡财务文本数据的风险预警方法。
一种面向不平衡财务文本数据的风险预警方法,包括以下过程:
获取待处理的财务文本数据;
根据获取的财务文本数据和预设评估模型,财务文本数据真实性评估结果;
根据真实性评估结果与预设阈值的对比,进行财务数据的风险预警;
其中,预设预测模型的训练过程中,对不平衡财务文本数据进行插值处理以使得正负样本数据的差异在预设范围内。
进一步的,预设预测模型的训练过程中,对不平衡财务文本数据进行筛选,包括以下过程:
根据获取的财务文本数据得到财务文本数据中的特征数据,当某个特征缺失的样本数量占比大于第一阈值时,将该特征舍弃;当某个特征缺失的样本数量占比在第二阈值与第一阈值之间时,将该特征对应的数据全部用均值填补;当某个特征数据缺失的样本数量占比小于第二阈值时,将该特征对应的数据用随机森林算法填补。
进一步的,用随机森林算法填补,包括以下过程:
选择数据的中位数或众数作为当前的估计值;
使用填补后的数据集训练随机森林模型,记录每一组数据在决策树中的分类路径;
建立一个相似度矩阵,根据分类路径计算数据之间的相似度,用相似度矩阵加权求均值作为新的估计值;
迭代预设次数后,得到最后的估计值。
进一步的,对不平衡财务文本数据进行插值处理,包括以下过程:
对于少数类中一个样本a,以欧氏距离为标准,计算它到少数类样本集中所有样本的距离,得到它的k个近邻;
对于少数类样本a,从其k近邻中随机选择一个样本b;
对于选出的近邻b,生成一个0到1之间的随机数ζ,合成一个新样本c;其中,合成公式为:c=a+ζ·|b-a|;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110672882.6/2.html,转载请声明来源钻瓜专利网。





