[发明专利]一种基于机器学习的财务报表数据自动识别和分析方法在审

专利信息
申请号: 201910820809.1 申请日: 2019-08-29
公开(公告)号: CN110543475A 公开(公告)日: 2019-12-06
发明(设计)人: 李梓成;刘广洲;杨超凡 申请(专利权)人: 深圳市原点参数科技有限公司
主分类号: G06F16/215 分类号: G06F16/215;G06F16/25;G06F16/33;G06F16/35;G06F17/22;G06Q10/06;G06Q40/00
代理公司: 11754 北京鱼爪知识产权代理有限公司 代理人: 曹治丽<国际申请>=<国际公布>=<进入
地址: 518033 广东省深圳市福*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 格式化 财务数据 财务信息 文档结构 信息完整 数据块 知识库 闭环 财务报表数据 数据抽取模块 信息标注模块 单个信息 基于机器 检查模块 聚合模块 模块提取 人工标记 人工辅助 数据抽取 数据反馈 数据解析 数据清洗 文本内容 信息处理 信息系统 自动识别 大数据 文本块 信息点 纠正 标注 抽取 分析 检查 文本 筛选 输出 学习 升级
【权利要求书】:

1.一种基于机器学习的财务报表数据自动识别和分析方法,其特征在于:所述方法应用于财务报表数据识别和分析系统,从解析最原始的数据开始,利用机器学习算法对信息进行分析和抽取,并且借助人工辅助子系统对极端情况进行处理,并积累标签数据使整个数据解析过程形成闭环。

2.根据权利要求1所述的基于机器学习的财务报表数据自动识别和分析方法,其特征在于,所述财务报表数据识别和分析系统具体包括数据抽取模块、数据清洗及文本聚合模块、文档结构及信息点标注模块、财务信息格式化模块、信息完整性检查模块以及人工辅助子系统。

3.根据权利要求1所述的基于机器学习的财务报表数据自动识别和分析方法,其特征在于,所述的信息的抽取过程由数据抽取模块从源文件中抽取原始信息,所获取的信息包括每个字符及其位置、字体、字号及文字方向的相关信息。

4.根据权利要求3所述的基于机器学习的财务报表数据自动识别和分析方法,其特征在于,所述的源文件数据包括PDF、HTML及XBRL格式的各类数据原始信息。

5.根据权利要求1所述的基于机器学习的财务报表数据自动识别和分析方法,其特征在于,所述的信息分析过程包括数据的清洗和聚合过程,所述的数据清洗通过数据清洗模块对抽取出来的数据进行汇总,过滤无用的文字信息,并对字符在编码上进行标准化;文本聚合针对提取并编码出来的分开的字符,根据未知信息及逻辑回归模型对字符进行汇聚,形成从词语到语句再到完整的文本块的过程。

6.根据权利要求1所述的基于机器学习的财务报表数据自动识别和分析方法,其特征在于,所述的信息分析过程还包括文档结构调整及信息点的标注,由文档结构及信息点标注模块利用文本相似度分析技术,目标文件的目录进行内容该分析,通过知识库提供的标签数据所训练的机器模型对目标目录内容进行识别,按目录内容对目标文件内容进行模块划分,同时对相应模块进行内容标注。

7.根据权利要求1所述的基于机器学习的财务报表数据自动识别和分析方法,其特征在于,所述的信息分析过程还包括财务数据的提取,由财务信息格式化模块完成,包括:

A、财务数据的区域定位,根据文档结构和信息点的标注之后,快速对相关财务数据进行区域定位;

B、文本块属性分析,构建一个神经网络对文本块属性进行识别,使用位置信息进行训练,其文本属性包括:普通文本块、键值对文本块、表格、小标题文本块;

C、对表格进行格式化,根据知识库中积累的表格样式数据,对数据进行处理,标记出哪块文本是“键”,哪块文本是“值”,最终将表格转化成键值对的形式,完成表格的键值关系数据提取,并以键值对的方式,提取出财务数据。

8.根据权利要求1所述的基于机器学习的财务报表数据自动识别和分析方法,其特征在于,所述数据识别和分析方法需要完成信息完整性检查,根据财务规则,利用既有程序对整个财务报告进行扫描检查,防止财务数据被错误提取或漏提取,如果检查通过的话整个数据提取过程结束。

9.根据权利要求1所述的基于机器学习的财务报表数据自动识别和分析方法,其特征在于,对于未能通过检查的信息,采用人工辅助方式进行人工标记和纠错。

10.根据权利要求9所述的基于机器学习的财务报表数据自动识别和分析方法,其特征在于,所述人工标记和纠错的具体内容包括:

对于解析系统中未能正确解析的数据进行人工标记,并积累到知识库中进行学习训练;

对于原始数据存在错误的部分进行人工纠正。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市原点参数科技有限公司,未经深圳市原点参数科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910820809.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top