[发明专利]一种基于XBRL技术从非结构化财务报告抓取数据的方法有效
| 申请号: | 201510146654.X | 申请日: | 2015-03-31 |
| 公开(公告)号: | CN104731941B | 公开(公告)日: | 2018-02-23 |
| 发明(设计)人: | 国文峰 | 申请(专利权)人: | 浪潮集团有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 济南信达专利事务所有限公司37100 | 代理人: | 姜明 |
| 地址: | 250101 山东*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 xbrl 技术 结构 财务报告 抓取 数据 方法 | ||
技术领域
本发明涉及计算机应用技术领域,具体地说是一种实用性强、基于XBRL技术从非结构化财务报告抓取数据的方法。
背景技术
随着计算机及网络技术的发展,信息以爆炸式的速度飞速增长,数据的存储形式也更加多样化,除了传统的关系数据库结构化存储之外,还有大量的数据以非结构化的方式存储,比如普通文本文件、Office文档、电子邮件或其他格式的电子文档,这些数据一般受限于不同应用软件,必须采用特定软件打开,不同系统之间很难交换数据,据国际知名调研机构Forrest Research的统计资料表明,其中只有15%左右的信息存储在结构化数据库中,更多的85%的信息还是非结构化方式存储,因受限于格式,无法进行有效的利用;在财务报告领域更是如此,由于缺少标准,财务报告不同应用主体之间信息的交换和传输主要采用Office文档等非结构化格式。
XBRL可扩展商业报告语言是基于互联网、跨平台操作,专门用于财务报告编制、披露和使用的计算机语言,是一种可公开的、完全免费的国际标准,其最大特点是对每一个报告数据进行标识,并采用一套标准模型描述数据之间的关系,使得计算机能够读懂财务报告,加快了信息处理的效率和数据的利用率。
XBRL作为一种新兴的财务报告编制技术标准,在全球范围内还处于一个快速发展期,我们国家非常重视XBRL技术的应用,由财政部签头,2010年发布了XBRL相关国家标准,从2011年开始在部分大中型企业开始试点,目前虽然已经试点了四年,但企业应用热情不高,其中一个主要原因是当前社会积累的XBRL企业数据较少,企业应用XBRL一般看重基于XBRL数据分析能力,能够最大化的利用数据,挖掘数据的价值,如何把现有的大量的非结构化的财务报告转化为XBRL格式的,为企业分析应用提供数据支撑,是当前迫切需要解决的。基于此,现提出了一种基于XBRL技术从非结构化财务报告抓取数据的方法。
发明内容
本发明的技术任务是针对以上不足之处,提供一种实用性强、基于XBRL技术从非结构化财务报告抓取数据的方法。
一种基于XBRL技术从非结构化财务报告抓取数据的方法,其具体实现过程为:
一、以XBRL分类标准为财务报告模型,对分类标准元素和扩展链接角色ELR进行扩展标识;
二、使用Word或Excel的非结构化格式的财务报告,预置对采用表格方式表示财务报表进行解析的规则,实现表格数据到XBRL分类标准报告模型的对应关系映射;
三、针对报告主体、时间两个特殊的维度,通过特殊关键字匹配财务报告,在对应关系的基础之上实现表格数据到XBRL数据的自动转换。
所述对分类标准元素和ELR进行扩展标识,是指通过设置多种类型的元素与财务报告具体数据对应,通过ELR设置关键字实现与财务报告具体报表的对应,其中:
对分类标准元素进行扩展标识的具体过程为,同一元素可以设置多种类型的标签,参照元素不同种类的标签对表格数据进行多种类型的匹配,根据匹配的相似度高低选择最优匹配结果,从而提高表格数据到分类标准报告模型对应关系映射的准确性;
对ELR进行扩展标识的具体过程为,将关键字分为标题关键字、内容关键字两类,每类包括若干个,标题关键字根据内嵌表格对象表示的报表标题名称来定义,标题关键字支持多个优先级设置;内容关键字根据内嵌表格对象具体的表格数据的特征来设置,支持多个关键字设置。
所述使用Word或Excel的非结构化格式的财务报告是指采用表格方式表示一张财务报表,对表格展现形式进行归类,按照非维度与维度建模方式划分为2大类,其中非维度的建模对应的报表只包含时间维和财务概念;维度建模对应的报表包括时间维、财务概念。
所述非维度的建模方式中包括双期间双项目列、单期间单项目列、双期间单项目列、单期间双项目列;维度建模方式包括单期间行项目列维度、单期间行维度列项目、双期间行项目列维度、双期间行维度列项目;然后对该表格数据解析抽取出维度、量度,实现与分类标准模型的对应。
所述步骤三中,财务报告中具体报表数据中的时间维度通过强标识的关建字进行标识,关键字包括:期末*余额、期初*余额、本期*金额、上期*金额、期末数、期初数、上年同期金额、年初*余额、年末*余额,其中*表示通配。
本发明的一种基于XBRL技术从非结构化财务报告抓取数据的方法,具有以下优点:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮集团有限公司,未经浪潮集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510146654.X/2.html,转载请声明来源钻瓜专利网。





