[发明专利]一种基于机器学习的财务报表数据自动识别和分析方法在审
申请号: | 201910820809.1 | 申请日: | 2019-08-29 |
公开(公告)号: | CN110543475A | 公开(公告)日: | 2019-12-06 |
发明(设计)人: | 李梓成;刘广洲;杨超凡 | 申请(专利权)人: | 深圳市原点参数科技有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/25;G06F16/33;G06F16/35;G06F17/22;G06Q10/06;G06Q40/00 |
代理公司: | 11754 北京鱼爪知识产权代理有限公司 | 代理人: | 曹治丽<国际申请>=<国际公布>=<进入 |
地址: | 518033 广东省深圳市福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 格式化 财务数据 财务信息 文档结构 信息完整 数据块 知识库 闭环 财务报表数据 数据抽取模块 信息标注模块 单个信息 基于机器 检查模块 聚合模块 模块提取 人工标记 人工辅助 数据抽取 数据反馈 数据解析 数据清洗 文本内容 信息处理 信息系统 自动识别 大数据 文本块 信息点 纠正 标注 抽取 分析 检查 文本 筛选 输出 学习 升级 | ||
1.一种基于机器学习的财务报表数据自动识别和分析方法,其特征在于:所述方法应用于财务报表数据识别和分析系统,从解析最原始的数据开始,利用机器学习算法对信息进行分析和抽取,并且借助人工辅助子系统对极端情况进行处理,并积累标签数据使整个数据解析过程形成闭环。
2.根据权利要求1所述的基于机器学习的财务报表数据自动识别和分析方法,其特征在于,所述财务报表数据识别和分析系统具体包括数据抽取模块、数据清洗及文本聚合模块、文档结构及信息点标注模块、财务信息格式化模块、信息完整性检查模块以及人工辅助子系统。
3.根据权利要求1所述的基于机器学习的财务报表数据自动识别和分析方法,其特征在于,所述的信息的抽取过程由数据抽取模块从源文件中抽取原始信息,所获取的信息包括每个字符及其位置、字体、字号及文字方向的相关信息。
4.根据权利要求3所述的基于机器学习的财务报表数据自动识别和分析方法,其特征在于,所述的源文件数据包括PDF、HTML及XBRL格式的各类数据原始信息。
5.根据权利要求1所述的基于机器学习的财务报表数据自动识别和分析方法,其特征在于,所述的信息分析过程包括数据的清洗和聚合过程,所述的数据清洗通过数据清洗模块对抽取出来的数据进行汇总,过滤无用的文字信息,并对字符在编码上进行标准化;文本聚合针对提取并编码出来的分开的字符,根据未知信息及逻辑回归模型对字符进行汇聚,形成从词语到语句再到完整的文本块的过程。
6.根据权利要求1所述的基于机器学习的财务报表数据自动识别和分析方法,其特征在于,所述的信息分析过程还包括文档结构调整及信息点的标注,由文档结构及信息点标注模块利用文本相似度分析技术,目标文件的目录进行内容该分析,通过知识库提供的标签数据所训练的机器模型对目标目录内容进行识别,按目录内容对目标文件内容进行模块划分,同时对相应模块进行内容标注。
7.根据权利要求1所述的基于机器学习的财务报表数据自动识别和分析方法,其特征在于,所述的信息分析过程还包括财务数据的提取,由财务信息格式化模块完成,包括:
A、财务数据的区域定位,根据文档结构和信息点的标注之后,快速对相关财务数据进行区域定位;
B、文本块属性分析,构建一个神经网络对文本块属性进行识别,使用位置信息进行训练,其文本属性包括:普通文本块、键值对文本块、表格、小标题文本块;
C、对表格进行格式化,根据知识库中积累的表格样式数据,对数据进行处理,标记出哪块文本是“键”,哪块文本是“值”,最终将表格转化成键值对的形式,完成表格的键值关系数据提取,并以键值对的方式,提取出财务数据。
8.根据权利要求1所述的基于机器学习的财务报表数据自动识别和分析方法,其特征在于,所述数据识别和分析方法需要完成信息完整性检查,根据财务规则,利用既有程序对整个财务报告进行扫描检查,防止财务数据被错误提取或漏提取,如果检查通过的话整个数据提取过程结束。
9.根据权利要求1所述的基于机器学习的财务报表数据自动识别和分析方法,其特征在于,对于未能通过检查的信息,采用人工辅助方式进行人工标记和纠错。
10.根据权利要求9所述的基于机器学习的财务报表数据自动识别和分析方法,其特征在于,所述人工标记和纠错的具体内容包括:
对于解析系统中未能正确解析的数据进行人工标记,并积累到知识库中进行学习训练;
对于原始数据存在错误的部分进行人工纠正。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市原点参数科技有限公司,未经深圳市原点参数科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910820809.1/1.html,转载请声明来源钻瓜专利网。