[发明专利]一种基于机器学习的财务报表数据自动识别和分析方法在审

专利信息
申请号: 201910820809.1 申请日: 2019-08-29
公开(公告)号: CN110543475A 公开(公告)日: 2019-12-06
发明(设计)人: 李梓成;刘广洲;杨超凡 申请(专利权)人: 深圳市原点参数科技有限公司
主分类号: G06F16/215 分类号: G06F16/215;G06F16/25;G06F16/33;G06F16/35;G06F17/22;G06Q10/06;G06Q40/00
代理公司: 11754 北京鱼爪知识产权代理有限公司 代理人: 曹治丽<国际申请>=<国际公布>=<进入
地址: 518033 广东省深圳市福*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供一种基于机器学习的财务报表数据自动识别和分析方法,经由数据抽取模块进行数据抽取,通过数据清洗及文本聚合模块对文本内容进行筛选和组合,使之抽取的单个信息能形成完整的数据块或者文本块,然后对于所形成的数据块进行文档结构的分析和信息点的标注,由财务信息格式化模块提取其中的财务数据,然后通过检查之后输出财务数据。无法通过信息完整度检查的数据,由人工辅助子系统进行人工标记和纠正,并将标记和纠正的数据反馈给知识库进行大数据学习,从而训练文档结构及信息标注模块、财务信息格式化模块和信息完整度检查模块进行信息系统的训练升级,使之信息处理更加完善并形成数据解析闭环。
搜索关键词: 格式化 财务数据 财务信息 文档结构 信息完整 数据块 知识库 闭环 财务报表数据 数据抽取模块 信息标注模块 单个信息 基于机器 检查模块 聚合模块 模块提取 人工标记 人工辅助 数据抽取 数据反馈 数据解析 数据清洗 文本内容 信息处理 信息系统 自动识别 大数据 文本块 信息点 纠正 标注 抽取 分析 检查 文本 筛选 输出 学习 升级
【主权项】:
1.一种基于机器学习的财务报表数据自动识别和分析方法,其特征在于:所述方法应用于财务报表数据识别和分析系统,从解析最原始的数据开始,利用机器学习算法对信息进行分析和抽取,并且借助人工辅助子系统对极端情况进行处理,并积累标签数据使整个数据解析过程形成闭环。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市原点参数科技有限公司,未经深圳市原点参数科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910820809.1/,转载请声明来源钻瓜专利网。

同类专利
  • 一种快速清洗、转换的数据抽取方法-201910901424.8
  • 汤同伟;何静;霍荣 - 紫光云(南京)数字技术有限公司
  • 2019-09-23 - 2020-02-14 - G06F16/215
  • 本发明公开了一种快速清洗、转换的数据抽取方法,涉及数据抽取技术领域。本发明包括读取数据内容到内存数据库中,将数据内容分组形成若干数据段,建立多线程并为每个线程分配待处理数据块,各线程独立对数据块完成清洗和转换,将转换后的数据块合并存储到内存数据库中。本发明通过任务调度处理器判断当前线程内当前数据段与其他数据块是否存在汇总关联;若存在,在数据块清洗后对汇总关联的若干数据块汇总并重新拆分形成新数据块,并采用多线程对新数据块转换;若不存在,直接对当前数据块进行清洗、转换;最后待所有数据块清洗转换完成后,通过数据合并处理器合并,提高数据抽取效率,适用于海量数据的清洗和转换。
  • 特征工程变量数据请求处理方法、装置及电子设备-201910939382.7
  • 黄建庭;宋荣鑫;陈烁煌 - 北京淇瑀信息科技有限公司
  • 2019-09-30 - 2020-02-14 - G06F16/215
  • 本公开涉及一种特征工程变量数据请求处理方法、装置、电子设备及计算机可读介质。该方法包括:接收特征工程变量数据请求,所述特征工程变量数据请求中包括特征规则;基于所述特征规则由工程配置数据库获取特征工程参数;根据所述特征工程参数获取目标特征工程变量数据;以及通过所述目标特征工程变量数据响应所述特征工程变量数据请求。本公开涉及的特征工程变量数据请求处理方法、装置、电子设备及计算机可读介质,能够快速获取计算所需的特征工程变量数据,节约数据服务器的计算量,提高机器学习模型的处理效率。
  • 破碎化区域采样点的地理空间分布均匀度检测方法-201711293386.X
  • 董士伟;潘瑜春;高秉博;郜允兵;周艳兵;刘玉;郝星耀;金小花 - 北京农业信息技术研究中心
  • 2017-12-08 - 2020-02-14 - G06F16/215
  • 本发明提供一种破碎化区域采样点的地理空间分布均匀度检测方法,包括:对于采样区域中的每个采样点,根据平均采样面积和每个采样点所在泰森多边形面积,计算每个采样点的均匀因子;根据所述采样区域中的所有采样点的均匀因子,计算所述采样区域中所有采样点的地理空间分布均匀度。本发明提供的破碎化区域采样点的地理空间分布均匀度检测方法,通过计算所有采样点的均匀因子,进而计算得出采样区域中所有采样点的地理空间分布均匀度,并生成所有采样点的均匀曲线,通过均匀度对破碎化区域采样点的地理空间分布均匀度进行检测,并通过均匀曲线确定异常采样点,确保了破碎化区域采样点的可用性,有利于下一步采样点数据的去冗精化和挖掘分析。
  • 一种国土空间规划数据采集系统及数据采集方法-201910827602.7
  • 周楠;马晓蒙;王利峰;李向阳 - 宿州山海经测地理信息科技有限公司
  • 2019-09-03 - 2020-02-11 - G06F16/215
  • 本发明公开了一种国土空间规划数据采集系统及数据采集方法,属于国土空间规划技术领域,包括数据采集模块、数据传递模块和数据优化处理模块,数据采集模块包括人工输入和无人机数据采集吗,数据优化处理模块的输出端连接有数据建模模块,数据建模模块的输出端连接有控制面板,控制面板的输出端连接有显示器,无人机数据采集包括用于接收电磁波滤波接收器和摄像头,数据传递模块的输入端连接有数据采集模块,数据传递模块的输出端连接有数据优化处理模块。本发明采用滤波接收器接收不同物体发射的电磁波,同时与摄像头采集的图像信息相互整合便于确定采集信息的准确性,同时也扩大信息采集的范围,使采集的信息更加的全面。
  • 期权空头策略的平仓阈值的计算方法、系统及介质-201910932323.7
  • 朱秋龙;李永亮;黄志睿;曹颇知 - 上海银赛计算机科技有限公司
  • 2019-09-29 - 2020-02-11 - G06F16/215
  • 本发明提供了一种期权空头策略的平仓阈值的计算方法、系统及介质,包括:数据处理步骤:从金融数据网站,获取50ETF期权合约列表数据,每份50ETF期权合约的分钟级行情数据,以及上证50指数的分钟级行情数据,并进行数据处理,获得处理后的期权数据;策略运行步骤:根据获得的后的期权数据,通过运行策略判断是否开仓:若是,则进入组合跟踪步骤;否则,则当前交易日没有交易,进入下一个交易日,返回数据处理步骤继续执行;组合跟踪步骤:实时跟踪期权组合的Delta值,在符合预设条件时平仓。本发明通过样本内,样本外的滚动回测,解决Delta波动分布不均匀的情况;本发明通过计算Delta的标准差,解决原本的阈值失效的问题。
  • 一种数据识别方法、装置、计算机设备及存储介质-201910970250.0
  • 孟庆丰;李敏;马文豪;董晓强 - 杭州城市大数据运营有限公司;湖州市大数据运营有限公司;杭州中云数据科技有限公司
  • 2019-10-12 - 2020-02-11 - G06F16/215
  • 本发明适用计算机技术领域,提供一种数据识别方法、装置、计算机设备及存储介质;所述数据识别方法包括:获取待识别数据;通过预设机器学习模型对待识别数据进行识别,获得标准结果;获取待识别数据所在数据库的表结构信息,并根据表结构信息以及预设抽样规则对待识别数据进行随机抽样,获得抽样数据;根据表结构信息,确定抽样数据的数据类型;基于抽样数据的数据类型,采用与数据类型对应的预先通过训练生成的数据识别模型对抽样数据进行识别,获得预测识别结果;根据预测识别结果以及标准结果,确定数据识别结果。该方法在保证准确率的同时,降低了人力成本,提高了工作效率,而且降低了工作人员对相关领域的专业知识要求,降低了应用门槛。
  • 大数据处理优化方法、装置、终端及存储介质-201910834086.0
  • 刘丽珍;李琳 - 深圳壹账通智能科技有限公司
  • 2019-09-04 - 2020-02-07 - G06F16/215
  • 本发明提供了一种大数据处理优化方法,所述方法包括:当接收到任务处理指令时,根据任务的属性及存储地址获取数据表单;启动主线程判断数据表单中的数据是否正确;当正确时,通过主线程逐行读取数据表单中的数据;当主线程读取了预设行数的数据时,对应启动一个子线程,并将预设行数的数据分发给所述子线程;控制所述子线程根据预设解析规则对所述主线程对应读取的所述预设行数的数据进行解析处理;当侦测到所有子线程完成解析处理后,通过所述主线程对每个子线程的解析结果进行汇总得到最终的解析结果。本发明还提供了一种大数据处理优化装置、终端及存储介质。本发明通过能够减少数据库中冗余的数量,提高处理器在解析数据时的处理能力。
  • 交易小票数据合并方法-201910890511.8
  • 唐明;向召元 - 北京数衍科技有限公司
  • 2019-09-20 - 2020-02-07 - G06F16/215
  • 本发明涉及交易小票数据合并方法,包括通用折中模型、酒店类模型和餐饮类模型共三种模型,其在获取小票数据和获取小票模型条件后对小票数据进行过滤和校验,判断小票流水号是否为有效流水号,当为有效流水号时,依据小票模型匹配相应的合并处理判断条件并将其与数据库中的相应交易数据进行对比,判断是否一致,依据不同小票的特点进行相应的合并处理,对没有有效流水号的酒店类小票和具有有效流水号的餐饮类小票,则依据这些行业的小票特点设定相应的合并处理条件和合并处理方式。本发明可以在交易小票数据进入存储系统之前对交易数据进行统一清洗,数据分析只用在清洗后的数据上进行,减少了数据分析对数据处理的复杂度。
  • 一种多个排序类别组合方法-201910926653.5
  • 季飞;杨晶生 - 上海麦克风文化传媒有限公司
  • 2019-09-27 - 2020-02-07 - G06F16/215
  • 本发明属于排序方法组合技术领域,尤其是涉及一种多个排序类别组合方法,包括以下步骤:采集业务数据,对业务数据进行分类和分类存储;根据预先设置的过滤规则分别对各类别下的业务数据进行过滤,并分别从各类别下过滤后的业务数据中提取专辑词组;对从同一业务数据中提取的专辑词组进行排序,并将同一业务数据的排序后的专辑词组进行组合,获得各类别下的各个业务数据的专辑词组组;统计专辑词组在所属类别下的出现次数,分别获取各类别下的专辑词组并进行分类展示。本发明支持多个排序方法组合成最终结果,并且对业务数据进行了过滤和分类,既满足了热度,又满足了新品的曝光需求,所得结果重复性小、可读性高。
  • 基于商业智能系统开发的医院廉政风险防控系统-201910928335.2
  • 杨志刚;胡江;杨紫瑄;刘清枝;邢思语;高培军;董睿超 - 杨志刚
  • 2019-09-28 - 2020-02-07 - G06F16/215
  • 本发明公开了基于商业智能系统开发的医院廉政风险防控系统,涉及医疗信息技术领域;本发明利用现有的商业智能系统将医院中各业务信息系统整合到一起,通过商业智能系统中的ETL工具将医院纪检重点监控的信息从在线运行的业务系统(HIS、RIS、LIS、HERP、PASS等)信息孤岛中的数据抽取到数据仓库中,将数据仓库里的数据进行数据挖掘,多维度的定义成指标项,再整合成需要展示的数据;最终利用帆软报表工具将需要展示的数据制作成各类图表通过信息展示平台直观的展示出来;该系统已经实际运行,运行以来,极大的减少了医院纪委日常的管理工作量,降低了数据被篡改的风险,可以对风险指标进行即时监控,防止不良事件与违规事件的发生。
  • 客户趋势变化呈现方法、装置及计算机可读存储介质-201911002903.2
  • 杨启正 - 招商局金融科技有限公司
  • 2019-10-21 - 2020-02-07 - G06F16/215
  • 本发明涉及大数据技术,揭露了一种客户趋势变化呈现方法,包括:从成员企业中获取原始客户的数据集,将所述原始客户的数据集进行数据清洗,得到标准客户数据集;对所述标准客户数据集进行预处理操作,得到目标客户数据集,并将所述目标客户数据集进行目标维度分析,得到所述目标客户数据集的目标维度分析值;将时间作为横坐标,以所述目标维度分析值作为纵坐标对所述原始客户建立客户趋势效果图,并输出所述客户趋势效果图。本发明还提出一种装置以及一种计算机可读存储介质。本发明实现了客户趋势变化的可视化呈现。
  • 一种电网工程造价用信息管理方法-201911032946.5
  • 陈贞辉 - 陈贞辉
  • 2019-10-28 - 2020-02-07 - G06F16/215
  • 本发明公开了一种电网工程造价用信息管理方法,具体涉及信息管理领域,包括信息载入模块,所述信息载入模块输出端连接有统一标准模块,所述统一标准模块输出端连接有中央处理模块,所述中央处理模块的输出端分别连接有原始数据模块、分类编码模块及信息显示模块,所述原始数据模块输出端连接有多级备份模块,所述中央处理模块的输入端连接有信息加密模块。本发明通过设置了分类编码模块,分类编码模块根据信息特征的不同,将采集到的数据信息筛选再加工、去伪存真、系统化数据化,并且根据其本身的内容信息进行合理分类,从而建立一批实用的数据库,更好的提高了信息质量,极大的方便了人们进行查看。
  • 基于多路分块的渐近式实体识别方法-201710122912.X
  • 申德荣;孙琛琛;寇月;聂铁铮;于戈 - 东北大学
  • 2017-03-03 - 2020-02-07 - G06F16/215
  • 本发明是一种基于多路分块的渐近式实体识别方法,该方法为:多路分块生成相交的块,通过构建分块图消除块冗余,初始化块信用度和候选对信用度,将候选对按照信用度排序,并依次插入到候选队列;接着,迭代地进行以下三个步骤,(1)处理候选队列的候选对,(2)根据识别结果来更新一部分候选对的信用度,(3)根据更新的候选对的信用度来调整候选队列的顺序,并逐渐输出识别出的重复的数据对象对,不断重复这三步直到候选队列为空。采用本发明的渐近式实体识别方法,给定较短时间预算,可以识别出更多的重复的数据对象;通过动态地估计块的冗余度来更新候选对的信用度,实时地选择最可能匹配的候选对来进行识别,保证了高渐近性。
  • 一种安全多方数值型记录匹配方法-201810067980.5
  • 申德荣;韩姝敏;聂铁铮;寇月;于戈 - 东北大学
  • 2018-01-24 - 2020-02-07 - G06F16/215
  • 本发明公开一种安全有效的多方数值型记录匹配方法,属于数据质量和数据集成领域,具体方法为:各数据源间统一参数、生成密钥,接着,进行以下三个步骤,(1)利用类模运算加密各数据源中的数值型记录,(2)安全地查询出各数值型属性中的最大最小值,并优化地计算两者间的相似度作为各记录在该属性中的相似度,(3)通过各记录在各属性中的相似度,判断是否匹配成功。采用本发明的多方数值型记录匹配方法,可以在更短的时间内,更加安全有效地识别出重复的数据对象;通过证明若属性中最大最小值的相似度大于阈值,则任意两个属性值的相似度均大于阈值,只需安全快速地查找出各属性的最大最小值,即可判断各数值型记录是否匹配成功,保证了高效性。
  • 数据标注方法、系统、计算机设备和存储介质-201910862671.1
  • 王丹丹 - 苏宁云计算有限公司
  • 2019-09-12 - 2020-02-04 - G06F16/215
  • 本申请涉及一种数据标注方法、系统、计算机设备和存储介质。所述方法包括:获取第一标注数据,所述第一标注数据包括多个用户对同一待标注数据的多个标注数据;对获取到的所述第一标注数据进行聚类去噪,得到第二标注数据;采用当前条件随机场模型对所述第二标注数据进行预测,得到预测标注数据;根据所述预测标注数据对所述第一标注数据进行校验,得到正确标注数据,所述正确标注数据为与所述预测标注数据一致的所述第一标注数据。采用本方法能够提高数据标注的准确性和效率。
  • 基于海关大数据及谷歌搜索的获客方法和系统和设备-201910964665.7
  • 肖碧祥 - 厦门谷道集团有限公司
  • 2019-10-11 - 2020-02-04 - G06F16/215
  • 本发明提供了一种基于海关大数据及谷歌搜索的获客方法、系统及装置。所述方法包括以下步骤:S1,根据客户产品获取多个关键词;S2,根据所述关键词在海关大数据中进行采购商进口产品AI比对处理,匹配出相关第一采购商公司名称;S3,根据所述第一采购商公司名称通过谷歌搜索,将将相关搜索结果集通自然语言分析及数据清洗,得到所述第一采购商公司名称所对应的联系人信息以及公司网址信息;S4,将所述第一采购商公司名称及其对应联系人信息以及公司网址信息进行交集推送给客户。
  • 一种多源数据可视分析与展现方法及系统-201911023724.7
  • 夏侯康;曾林华;王丽娟;冯景亮 - 广东机场白云信息科技有限公司
  • 2019-10-25 - 2020-02-04 - G06F16/215
  • 本发明公开了一种多源数据可视分析与展现方法及系统。多源数据可视分析与展现方法,包括:接收所有数据信息,对数据进行清洗,删除异常数据,得到数据样本集合;根据数据样本类型,选定聚类数K值的大小;将数据样本集合中的数据样本按最小距离原则分配到最邻近聚类;根据最临近聚类结果,重新计算K个聚类的中心,并作为新的聚类中心;判断是否收敛即判断聚类中心是否不再发生变化,若未收敛,重复直至收敛,得到最佳聚类结果;按照最佳聚类结果,为数据样本标上相应标签,与展示模板一一对应,进行展示。多源数据可视分析与展现系统,包括:数据样本处理模块;聚类数选定模块;临近聚类模块;聚类中心运算模块;最佳聚类运算模块;展示模块。
  • 一种数据写入、读取方法及装置-201510272393.6
  • 李宁 - 阿里巴巴集团控股有限公司
  • 2015-05-25 - 2020-02-04 - G06F16/215
  • 本申请实施例公开了一种数据写入、读取方法及装置,所述数据写入方法包括:接收携带有待写入数据及该待写入数据的第一标识的数据写入请求;基于第一数据库的当前待写入数据的写入规则,确定与所述第一标识对应的存储位置信息;确定包含所述第一标识及所述存储位置信息的第二标识,并建立所述待写入数据到所述第二标识的映射关系;依据所述存储位置信息进行路由,并按照所述路由的结果将所述待写入数据写入所述第一数据库。本申请实施例在数据库需要扩容时无需采取数据迁移方式,从而降低数据库维护的难度及成本。
  • 一种云化架构下的记录数据剔重处理方法及系统-201710059113.2
  • 严丽君 - 北京思特奇信息技术股份有限公司
  • 2017-01-23 - 2020-02-04 - G06F16/215
  • 本发明涉及一种云化架构下的记录数据剔重处理方法及系统,属于记录数据剔重处理领域,能对记录数据进行高速剔重处理和较长时间保存。本发明将收到的记录数据分为及时记录数据和迟到记录数据,将及时记录数据插入分布式内存数据库且提取关键信息建立索引数据,剔除重复记录后,输出为及时记录出口文件给下游使用,并将及时记录数据的索引数据导入HBASE数据库中;将迟到记录数据及对应的索引数据插入HBASE数据库,根据HBASE数据库中的索引数据剔除重复记录后,将非重复的迟到记录数据输出为迟到记录出口文件给下游使用。用于在数据接收时间跨度大的情况下对记录数据进行高速剔重处理。
  • 性能特征降维方法及装置、电子设备及存储介质-201910875358.1
  • 吴超勇 - 平安科技(深圳)有限公司
  • 2019-09-17 - 2020-01-31 - G06F16/215
  • 本发明涉及数据处理领域,提出一种性能特征降维方法、装置及计算机可读存储介质,该方法包括:在服务器集群中部署Agent包,所述Agent包采集服务器集群中集群服务器的性能指标,构成指标数据集;对所述指标数据集进行各维度的数据清洗获得有效指标数据;将所述有效指标数据存放于HDFS分布式文件系统中,对所述HDFS分布式文件系统中的有效指标数据进行性能特征提取,并将提取出的性能特征存储于HBase数据库;对所述HBase数据库中的性能特征进行基于PCA的特征降维。
  • 数据质量检测方法及装置-201910927963.9
  • 郑伟波;张毅然 - 北京明略软件系统有限公司
  • 2019-09-27 - 2020-01-31 - G06F16/215
  • 本发明提供了一种数据质量检测方法及装置,该方法包括:获取需进行数据质量检测的数据表;对所述数据表的每个字段采用对应的检核规则进行数据质量检测,以获得每个字段在每个维度下的数据质量检测值,其中,所述维度至少包括以下之一:一致性、及时性、准确性、唯一性;对每个字段在每个维度下的数据质量检测值进行加权计算获得所述数据表的数据质量检测值。在本发明中,从一致性、及时性、准确性和唯一性多个维度对数据质量进行质量检测,并且可从字段级、数据表级、数据源级以及数据库级逐级对数据质量进行评价,从而在很大程度上保证了接入数据的质量可靠性。
  • 一种可还原脱敏的数据清洗及交换办法-201910930237.2
  • 贺昌海;彭秀胜 - 武汉海昌信息技术有限公司
  • 2019-09-29 - 2020-01-31 - G06F16/215
  • 本发明提出了一种可还原脱敏的数据清洗及交换办法,对脱敏数据进行预处理,可以消除所有的“脏数据”,即冗余数据、异常数据和无用数据等;预处理的数据清洗部分可以处理缺失数据、检测和过滤异常值,移除重复数据;预处理的数据交换部分可以将不同来源的脱敏数据进行统一标识,进而可以对数据进行归一化处理,将其转换为有利于分析与挖掘的形式;本发明的方法安全复杂系数更高,使得算法模型的安全性更高,鲁棒性更强。有效地降低了敏感数据的危险系数,提高了敏感数据的安全性与破解难度系数,实现了敏感数据的脱敏,保护敏感数据安全与可靠。
  • 一种基于微服务的一体化企业数据处理系统及方法-201910987142.4
  • 刘建卫 - 天津锐网科技股份有限公司
  • 2019-10-17 - 2020-01-31 - G06F16/215
  • 本发明属于数据处理技术领域,公开了一种基于微服务的一体化企业数据处理系统及方法,数据源为系统提供数据支持;数据管道通过对应数据源的微服务组件将数据转化为以主题划分的消息集合;利用消息系统的分区功能对数据管道进行并发设置,实现数据的并行处理;微服务组件从数据管道中获取数据并进行数据的处理;处理后的数据存储至数据库、数仓中;通过可视化操作面板对企业数据进行图表化的展示、数据分析、数据导出;通过SDK API对接企业的业务系统,获取多维数据分析结果。本发明能够高效且低成本实现数据的异构整合和提高数据质量的加工、提供可视化操作,无须专业人员即可实现数据多维的分析和数据挖掘,找到潜在的数据价值。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top