[发明专利]一种用于金融长文本复核系统的金融数据勾稽关系审核模块在审
申请号: | 202210350055.X | 申请日: | 2022-04-02 |
公开(公告)号: | CN114676207A | 公开(公告)日: | 2022-06-28 |
发明(设计)人: | 朱乐为;马文翔;崔子锋 | 申请(专利权)人: | 广州故新智能科技有限责任公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/215;G06V30/412;G06Q10/10;G06Q40/00 |
代理公司: | 广州市百拓共享专利代理事务所(特殊普通合伙) 44497 | 代理人: | 刘静 |
地址: | 510000 广东省广州市海珠区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 金融 文本 复核 系统 数据 关系 审核 模块 | ||
本发明提供一种用于金融长文本复核系统的金融数据勾稽关系审核模块,其包含数据获取模块、数据解析模块、数据读取模块、数据分类模块、数据质检模块、勾稽关系检查模块以及输出模块,通过上述模块实现了识别金融长文本内的表格数据,并对表格数据实现分类,接着对数据中的各项关键字段进行检查,检查出数据问题,并进行标记,接着将合格的表格数据通过勾稽关系检查模块解析、计算以及比较,确定勾稽关系的准确性,最后将上述结果以预定格式输出并存保存至数据库。因此该金融长文本复核系统的金融数据勾稽关系审核模块极大降低了审核所需时间,审核结果一目了然,方便人员快速找到问题点并纠正过来,实现了高效率高精度地对金融长文本进行复核。
技术领域
本发明属于金融文本分析领域,尤其涉及一种用于金融长文本复核系统的金融数据勾稽关系审核模块。
背景技术
金融长文本主要是指记录评估企业一段时间内财务状况或向外展示公司经营状况的一系列包括年度报告、招股说明书、审计报告等在内的财务数据文本。此类文本通常由专业金融方面的人员结合公司实际情况撰写完成,主要由文本段落、财务指标和表格数据等复杂元素组成。因为金融长文本隐含企业实际经营状况,所以金融机构或企业本身在发布金融长文本时,需要对金融长文本在金融数据等方面进行审核。目前该些金融长文本主要依靠人工审核,由于文本内容之大及文本涉及专业程度之高,使得人工审核的效率以及精准度较低,为了提高金融长文金融数据勾稽关系等方面的审核效率和精度,基于计算机强大的计算能力,结合人工智能对自然语言处理技术的兴起,现提出一种用于金融长文本复核系统的金融数据勾稽关系审核模块,以解决金融长文本金融数据勾稽关系审核效率低以及精准度低的问题。
发明内容
本发明目的在于提供一种用于金融长文本复核系统的金融数据勾稽关系审核模块,解决了目前的金融长文本金融数据勾稽关系审核效率低以及精准度低的问题。
一种用于金融长文本复核系统的金融数据勾稽关系审核模块,其包括:一数据获取模块、一数据解析模块、一数据读取模块、一数据分类模块、一数据质检模块、一勾稽关系检查模块以及一输出模块。所述数据获取模块,用于获取金融长文本的表格数据;所述数据解析模块,使用NLP和表格识别技术,识别并提取表格数据及表格标题数据,并将金融长文本中的表格数据以及表格标题数据转换为计算机可处理的结构,使得完成表格数据的结构化并保存至数据库中;所述数据读取模块,读取所述数据解析模块结构化处理后的表格数据;所述数据分类模块,根据表格标题数据和/或表格分类汇总方法,对所述数据读取模块读取的表格数据进行分类;所述数据质检模块,其根据各类表格数据的校验规则以及深度学习算法对数据中的各项关键字段进行检查,对于发现的数据问题进行自动化检查和实时记录;其中所述的数据问题包括数据缺失和数据大小不合适;所述勾稽关系检查模块,其对所述数据质检模块质检合格的表格数据根据会计准则提取文本中存在的勾稽关系规则,并由该些勾稽关系规则对分类的表格数据对应进行数据解析并计算对应数据,并与金融长文本解析的数据进行比较;所述输出模块,对所述数据质检模块以及所述勾稽关系检查模块核查的数据进行统计和记录,并以预定格式输出并存保存至数据库。
优选的,所述金融长文本为PDF格式文本。
优选的所述数据获取模块还包括一金融长文本转换单元,用于将PDF格式的金融长文本转换为图片格式文本,并将所述图片格式文本进行拉伸和二值化处理后根据CV模型获取表格数据。
优选的所述勾稽关系检查模块通过通用语料和金融语料进行自学习训练获取勾稽关系规则。
优选的,还包括一人工质检模块,其对于未能通过所述数据解析模块、所述数据质检模块以及所述勾稽关系检查模块处理的数据,采用人工辅助方式进行人工标记和纠错。
进一步的,所述标记和纠错的具体内容包括:对于所述数据解析模块中未能正确解析的数据进行人工标记,并积累到数据库中进行学习训练;对于所述数据质检模块检测存在的问题数据进行人工纠正;以及对于所述勾稽关系检查模块比较后的不符的误差数据进行标记。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州故新智能科技有限责任公司,未经广州故新智能科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210350055.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种R60705锆合金铸锭的制备方法
- 下一篇:一种护筒定位装置及定位方法