[发明专利]一种基于机器学习的财务报表数据自动识别和分析方法在审
申请号: | 201910820809.1 | 申请日: | 2019-08-29 |
公开(公告)号: | CN110543475A | 公开(公告)日: | 2019-12-06 |
发明(设计)人: | 李梓成;刘广洲;杨超凡 | 申请(专利权)人: | 深圳市原点参数科技有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/25;G06F16/33;G06F16/35;G06F17/22;G06Q10/06;G06Q40/00 |
代理公司: | 11754 北京鱼爪知识产权代理有限公司 | 代理人: | 曹治丽<国际申请>=<国际公布>=<进入 |
地址: | 518033 广东省深圳市福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 格式化 财务数据 财务信息 文档结构 信息完整 数据块 知识库 闭环 财务报表数据 数据抽取模块 信息标注模块 单个信息 基于机器 检查模块 聚合模块 模块提取 人工标记 人工辅助 数据抽取 数据反馈 数据解析 数据清洗 文本内容 信息处理 信息系统 自动识别 大数据 文本块 信息点 纠正 标注 抽取 分析 检查 文本 筛选 输出 学习 升级 | ||
本发明提供一种基于机器学习的财务报表数据自动识别和分析方法,经由数据抽取模块进行数据抽取,通过数据清洗及文本聚合模块对文本内容进行筛选和组合,使之抽取的单个信息能形成完整的数据块或者文本块,然后对于所形成的数据块进行文档结构的分析和信息点的标注,由财务信息格式化模块提取其中的财务数据,然后通过检查之后输出财务数据。无法通过信息完整度检查的数据,由人工辅助子系统进行人工标记和纠正,并将标记和纠正的数据反馈给知识库进行大数据学习,从而训练文档结构及信息标注模块、财务信息格式化模块和信息完整度检查模块进行信息系统的训练升级,使之信息处理更加完善并形成数据解析闭环。
技术领域
本发明涉及财务工具领域,特别是涉及一种基于机器学习的财务报表数据自动识别和分析方法。
背景技术
在金融行业,银行、证券公司、基金公司、投资公司每天需要对海量的企业财务报表进行分析。目前的方法是依靠人工逐字、逐句的阅读整个财务报表,判断其中的关键信息,并一一记录下来,制作报告。
这种方法存在如下弊端:
1.效率低,因为依靠人的肉眼观察和判断,逐条对信息点的理解与分析,并手工进行统计与记录,整体效率非常低。
2.成本高,耗费大量的人力和资源,成本极高。
3.出错率高,依靠人的主观判断对报表信息的内容、含义进行理解和记录,产生错误的概率非常高。
发明内容
本发明的目的在于提供一种基于机器学习的财务报表数据自动识别和分析方法,其能够从最原始的数据开始,利用机器学习算法对信息进行分析和抽取,并且借助人工辅助子系统对极端情况进行处理,并积累相关标签数据使整个数据解析过程形成闭环。
本发明的实施例是这样实现的:
一种基于机器学习的财务报表数据自动识别和分析方法,所述方法应用于财务报表数据识别和分析系统,从解析最原始的数据开始,利用机器学习算法对信息进行分析和抽取,并且借助人工辅助子系统对极端情况进行处理,并积累标签数据使整个数据解析过程形成闭环。
在本发明的一些实施例中,所述财务报表数据识别和分析系统具体包括数据抽取模块、数据清洗及文本聚合模块、文档结构及信息点标注模块、财务信息格式化模块、信息完整性检查模块以及人工辅助子系统。
在本发明的一些实施例中,所述的信息的抽取过程由数据抽取模块从源文件中抽取原始信息,所获取的信息包括每个字符及其位置、字体、字号及文字方向的相关信息。
在本发明的一些实施例中,所述的源文件数据包括PDF、HTML及XBRL格式的各类数据原始信息。
在本发明的一些实施例中,所述的信息分析过程包括数据的清洗和聚合过程,所述的数据清洗通过数据清洗模块对抽取出来的数据进行汇总,过滤无用的文字信息,并对字符在编码上进行标准化;文本聚合针对提取并编码出来的分开的字符,根据未知信息及逻辑回归模型对字符进行汇聚,形成从词语到语句再到完整的文本块的过程。
在本发明的一些实施例中,所述的信息分析过程还包括文档结构调整及信息点的标注,由文档结构及信息点标注模块利用文本相似度分析技术,目标文件的目录进行内容该分析,通过知识库提供的标签数据所训练的机器模型对目标目录内容进行识别,按目录内容对目标文件内容进行模块划分,同时对相应模块进行内容标注。
在本发明的一些实施例中,所述的信息分析过程还包括财务数据的提取,由财务信息格式化模块完成,具体包括:
A、财务数据的区域定位,根据文档结构和信息点的标注之后,快速对相关财务数据进行区域定位;
B、文本块属性分析,构建一个神经网络对文本块属性进行识别,使用位置信息进行训练,其文本属性包括:普通文本块、键值对文本块、表格、小标题文本块;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市原点参数科技有限公司,未经深圳市原点参数科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910820809.1/2.html,转载请声明来源钻瓜专利网。