[发明专利]文档版面分析方法、模型训练方法、装置和设备在审
申请号: | 202110700122.1 | 申请日: | 2021-06-23 |
公开(公告)号: | CN113361247A | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 张晓强;章成全;姚锟;韩钧宇;刘经拓;丁二锐;吴甜;王海峰 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/189 | 分类号: | G06F40/189;G06F16/35;G06F16/55;G06F16/583;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 赵林琳;辛鸣 |
地址: | 100094 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 版面 分析 方法 模型 训练 装置 设备 | ||
本公开提供了一种文档版面分析方法、模型训练方法、装置和设备,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于智慧城市和智慧金融场景下。文档版面分析方法包括:获取待处理文档图像的图像特征图和语义特征图;对图像特征图和语义特征图进行特征融合,以获得融合特征图;以及基于融合特征图,确定与待处理文档图像包括的文本内容对应的文本位置信息和/或文本类型信息。利用上述方法,可以利用待处理文档图像的图像特征和语义特征,针对待处理文档图像确定文本位置信息和/或文本类型信息,因此能够在复杂版面和复杂背景中提升文档版面分析的效果,从而能够提升进行文档版面分析的用户的用户体验。
技术领域
本公开涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于智慧城市和智慧金融场景下,并且更具体地,涉及文档版面分析方法、装置和设备。
背景技术
文档版面分析技术是指对也可以被称为文档图像的、采取图像形式的文档中的内容进行结构化语义理解。文档版面分析技术可以被用于文档还原、文档录入、文档比对等任务,并且可以被广泛地应用于社会的各行各业,例如办公、教育、医疗、金融等领域,不仅可以极大地提升传统行业的智能化程度和生产效率,也可以方便人们的日常学习与生活。近年来,尽管文档版面分析技术得到了快速发展,但是依然存在很多问题。
发明内容
根据本公开的实施例,提供了一种文档版面分析方法、模型训练方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
在本公开的第一方面中,提供了一种文档版面分析方法,包括:获取待处理文档图像的图像特征图和语义特征图;对图像特征图和语义特征图进行特征融合,以获得融合特征图;以及基于融合特征图,确定与待处理文档图像包括的文本内容对应的文本位置信息和/或文本类型信息。
在本公开的第二方面中,提供了一种模型训练方法,包括:获取训练文档图像的图像特征图和语义特征图;对图像特征图和语义特征图进行特征融合,以获得融合特征图;以及训练版面分析模型,以利用经训练的版面分析模型使得满足以下至少一项:基于融合特征图所确定的至少一个文本位置信息和针对待处理文档图像预先标注的至少一个标注位置信息相同的概率大于位置概率阈值,至少一个文本位置信息与待处理文档图像所包括的至少一个部分对应;以及基于融合特征图所确定的至少一个文本类型和针对待处理文档图像预先标注的至少一个标注文本类型相同的概率大于类型概率阈值,至少一个文本类型与至少一个部分对应。
在本公开的第三方面中,提供了一种文档版面分析装置,包括:第一获取模块,被配置为获取待处理文档图像的图像特征图和语义特征图;第一特征融合模块,被配置为对图像特征图和语义特征图进行特征融合,以获得融合特征图;以及第一确定模块,被配置为基于融合特征图,确定与待处理文档图像包括的文本内容对应的文本位置信息和/或文本类型信息。
在本公开的第四方面中,提供了一种模型训练装置,包括:第二获取模块,被配置为获取训练文档图像的图像特征图和语义特征图;第三特征融合模块,被配置为对图像特征图和语义特征图进行特征融合,以获得融合特征图;以及模型训练模块,被配置为训练版面分析模型,以利用经训练的版面分析模型使得满足以下至少一项:基于融合特征图所确定的至少一个文本位置信息和针对待处理文档图像预先标注的至少一个标注位置信息相同的概率大于位置概率阈值,至少一个文本位置信息与待处理文档图像所包括的至少一个部分对应;以及基于融合特征图所确定的至少一个文本类型和针对待处理文档图像预先标注的至少一个标注文本类型相同的概率大于类型概率阈值,至少一个文本类型与至少一个部分对应。
在本公开的第五方面中,提供了一种电子设备,包括至少一个处理器;以及与至少一个处理器通信连接的存储器;其中存储器存储有可被至少一个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理器能够实现根据本公开的第一方面的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110700122.1/2.html,转载请声明来源钻瓜专利网。