[发明专利]一种基于机器视觉的文本与内容识别分析方法在审

专利信息
申请号: 202110591900.8 申请日: 2021-05-28
公开(公告)号: CN113449602A 公开(公告)日: 2021-09-28
发明(设计)人: 杨修一;陈杰;庞小红 申请(专利权)人: 南京超募数字科技有限公司
主分类号: G06K9/00 分类号: G06K9/00;G06K9/32;G06F40/169
代理公司: 南京磐泰合盛知识产权代理事务所(普通合伙) 32521 代理人: 张浩
地址: 210000 江苏省南京市建邺*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 机器 视觉 文本 内容 识别 分析 方法
【说明书】:

发明公开了一种基于机器视觉的文本与内容识别分析方法,包括如下步骤:S1、首先通过机器扫描文件,识别文件中的文本内容,根据文件内容选择合适的识别方式,S2、在对特定的内容进行查找时,通过在知识库中选择需要查找的内容,通过机器扫描,识别该内容对应的文本,本发明通过机器视觉识别文本提及的表格和票据,对表格和票据文本进行识别,查找对应的表格和票据,识别表格和票据名称,查找与文本关联的表格和票据,将关联的表格和票据排放在对应的文本后面,够后续查阅,方便快速的查找关联的表格和票据,对文本内容更加快速的审核,使尽职调查的速度更快,节省时间,提高效率。

技术领域

本发明涉及机器视觉技术领域,具体为一种基于机器视觉的文本与内容识别分析方法。

背景技术

机器视觉是用机器代替人眼进行目标对象的识别、判断和测量,只要研究用计算机来模拟人的视觉功能,机器视觉技术涉及目标对象的图像获取技术、对图像信息的处理技术以及对目标对象的测量和识别技术,利用机器视觉技术给生活中的特定内容的读取识别带来的便捷,机器视觉技术常应用在仪器仪表上的数据读取、智能交通的车牌识别等;

但是目前在尽职调查中,通过机器视觉技术对大量文件进行识别查阅时,文件数量较多,文件种类不同,查阅文本内容较为复杂,使尽职调查的任务量较大,无法快速的将相关联的表格、票据与文本对应起来,从而导致尽职调查耗时较长。

发明内容

本发明提供一种基于机器视觉的文本与内容识别分析方法,可以有效解决上述背景技术中提出目前在尽职调查中,通过机器视觉技术对大量文件进行识别查阅时,文件数量较多,文件种类不同,查阅文本内容较为复杂,使尽职调查的任务量较大,无法快速的将相关联的表格、票据与文本对应起来,从而导致尽职调查耗时较长的问题。

为实现上述目的,本发明提供如下技术方案:一种基于机器视觉的文本与内容识别分析方法,包括如下步骤:

S1、首先通过机器扫描文件,识别文件中的文本内容,根据文件内容选择合适的识别方式;

S2、在对特定的内容进行查找时,通过在知识库中选择需要查找的内容,通过机器扫描,识别该内容对应的文本;

S3、先识别确定文本的整体结构,分析不同文本之间的关联性,再抓取文件中文本的名称和目录内容;

S4、然后按照目录对文本内容进行识别,先识别每个目录下的小标题,对文本结构进行补充;

S5、再根据尽职调查的需要和文本结构,快速定位至需要查找的位置,对重要内容进行识别分析;

S6、在重要文本内容识别分析过程中,识别到相同的文本内容时,将其他相同文本的位置标注在文本右侧;

S7、重要内容识别分析完成后,打印出重点内容分析报告;

S8、然后逐句对文本剩余内容进行识别分析,先识别提取数字和文字内容,最后识别图片内容;

S9、在文本内容全部分析完成后,打印整体分析报告。

根据上述技术方案,所述S1中,待识别的文件为图像文件,图像文件中的内容包括表格、文章和票据;

根据文本中文字记录的表格和票据,对其他含有表格和票据的文本进行查找,将表格名称和票据名称分别与文字记录的内容进行对比,将关联的票据文本和表格文本排放在对应文本后面;

关联表格和票据查找完成后,将票据与票据、表格与表格、表格与票据之间的内容进行对比分析,在对比后存在数据差异的位置进行框选标记;

所述S2中,知识库中存储有公司名称、重要文件名称、商业计划书名称和商业计划书中的故事

根据上述技术方案,所述S3中,在识别文本内容时,先通过机器视觉对文本内容进行扫描,对整个文本开始处的文本主题名称和文本目录进行识别,了解文档的大致内容,为后期查询做准备,然后识别文本中的目录,接着识别文本的重要内容,最后识别剩余内容;

在识别表格和票据时,先识别表格上方的表格名称,再识别表格的第一列和第一行的文本内容,确定表格整体结构,最后识别表格中剩余文本内容。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京超募数字科技有限公司,未经南京超募数字科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110591900.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top