[发明专利]基于识别学习建立财务欺诈识别模型的方法在审
申请号: | 201911152139.7 | 申请日: | 2019-11-22 |
公开(公告)号: | CN112949954A | 公开(公告)日: | 2021-06-11 |
发明(设计)人: | 张捷 | 申请(专利权)人: | 张捷 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06Q40/00;G06N3/08 |
代理公司: | 徐州拉沃智佳知识产权代理有限公司 32455 | 代理人: | 陈永宁 |
地址: | 224000 江苏省盐城市城南新区*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 识别 学习 建立 财务 欺诈 模型 方法 | ||
1.基于识别学习建立财务欺诈识别模型的方法,其特征在于,包括以下步骤:
步骤1)数据处理:获取样本数据之后,需要对样本数据进行清洗,样本数据清洗要清除错误点,冗余点和噪声,还要统一数据的量纲;
步骤2)构建印象管理特征:根据初步建立的文本框架,得到样本公司发布的文本信息的结构化数据,分别是包括社交行为特征、情绪特征和可读性特征;所述社交行为特征包含是否有微信公众号、是否认证、建立时长以及发文频率四个变量;所述情绪特征即年报文本部分情绪得分;所述可读性特征衡量年报文字部分的可理解性,包含是否有彩色封面、年报页数、平均句长和平均表格页数四个变量;
步骤3)选择财务变量:明确财务指标,分析每个财务指标的重要性与重要性排序,确定模型的输入变量,具体为:
步骤31)选取财务变量:包括反映公司盈利能力的销售费用增长率、资产报酬率、营业利润率和每股收益;反映公司偿债能力的速动比率、流动资产比率、资产负债率;反映公司资产营运能力的应收账款周转率、存货周转率、总资产周转率;反映公司成长能力的净利润增长率,共计11个财务指标;
步骤32)对样本数据的每个财务指标作描述统计分析与独立样本T检验:明确每股收益、营业利润率、资产报酬率都与欺诈行为显著负相关,明确流动资产比率、资产负债率、净利润增长率与欺诈行为显著正相关,速动比率、销售费用增长率、应收账款周转率、存货周转率和总资产周转率与欺诈行为没有显著的关系;
步骤33)基于随机森林的特征选择:每次随机选取一定数量的样本,未使用的样本被称为袋外样本(Out of Bag,OOB),通过袋外样本,可以评估这个树的准确度以及误差率,其他子树叶也同理;
步骤4)制定模型评价标准:构建评价模型的好坏的混淆矩阵以及评价指标;
步骤5)构建模型:选择分类器并对比分析,寻找最佳参数,具体为:
选取机器学习中三个已经被验证性能较好的分类器:支持向量机、梯度提升树和人工神经网络来建立模型,比较分析以及模型融合。
2.如权利要求1所述的基于识别学习建立财务欺诈识别模型的方法,其特征在于,步骤1)中,对于样本中缺失的数据,线性插补法进行填补;用观察法寻找数据集中与其他观测值差距较大的噪声,并通过人工检查的方式去除噪声;最后,对定量数据做标准化和中心化处理;从而初步建立的文本框架。
3.如权利要求1所述的基于识别学习建立财务欺诈识别模型的方法,其特征在于,步骤33)中,基于随机森林的特征选择的具体方法如下:
针对某个特征X,利用Bagging法建立了一颗决策树T,然后用T对袋外样本OOB进行分类检测,得到袋外误差errOOB1;
接着对袋外样本的特征X进行“随机扰乱”,也就是对特征X的取值赋予随机取的新数值,这时再用T对袋外样本进行分类检测,得到袋外误差errOOB2,这时对于T来说,特征X的重要性D=errOOB2-errOOB1;
对随机森林中共N颗决策树做相同操作,可以得到N个特征X的重要性,取其均值作为X的重要性度量,即
当给某个特征随机加入噪声之后,袋外的准确率会大幅度降低,也就是errOOB2的值将大幅提高,那么该特征的D(X)也会相应提高。换句话说,判断一个属性重要不重要,就是判断其值的改变对结果的影响程度。并选择重要性排序前五的变量作为模型的输入变量,依次是每股收益、资产负债率、净利润增长率、资产回报率和营业利润率。
4.如权利要求1所述的基于识别学习建立财务欺诈识别模型的方法,其特征在于,步骤4)中,样本分类并构建混淆矩阵:所有样本按照其真实类别和分类器预测类别可以划分为四类:
真正例(TP):真实类别为欺诈公司,预测类别为欺诈公司;
假正例(FP):真实类别为非欺诈公司,预测类别为欺诈公司;
假负例(FN):真实类别为欺诈公司,预测类别为非欺诈公司;
真负例(TN):真实类别为非欺诈公司,预测类别为非欺诈公司;根据以上四种分类情况构建混淆矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于张捷,未经张捷许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911152139.7/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理