[发明专利]文档版面分析方法、模型训练方法、装置和设备在审
申请号: | 202110700122.1 | 申请日: | 2021-06-23 |
公开(公告)号: | CN113361247A | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 张晓强;章成全;姚锟;韩钧宇;刘经拓;丁二锐;吴甜;王海峰 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/189 | 分类号: | G06F40/189;G06F16/35;G06F16/55;G06F16/583;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 赵林琳;辛鸣 |
地址: | 100094 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 版面 分析 方法 模型 训练 装置 设备 | ||
1.一种文档版面分析方法,包括:
获取待处理文档图像的图像特征图和语义特征图;
对所述图像特征图和所述语义特征图进行特征融合,以获得融合特征图;以及
基于所述融合特征图,确定与所述待处理文档图像包括的所述文本内容对应的文本位置信息和/或文本类型信息。
2.根据权利要求1所述的方法,其中获取所述图像特征图包括:
通过使用卷积神经网络对所述待处理文档图像进行特征计算来获取所述图像特征图。
3.根据权利要求1所述的方法,其中获取所述语义特征图包括:
确定所述待处理文档图像所包括的文本内容以及与所述文本内容对应的位置信息;以及
基于所述文本内容和所述位置信息来生成所述文本内容的所述语义特征图。
4.根据权利要求3所述的方法,其中生成所述语义特征图包括:
通过文本嵌入生成与所述文本内容对应的语义向量集合;以及
基于所述语义向量集合和所述位置信息来生成所述语义特征图。
5.根据权利要求4所述的方法,其中生成所述语义向量集合包括:
通过预定义字典生成与所述文本内容对应的字典标识集合;以及
通过嵌入编码将所述字典标识集合编码为所述语义向量集合。
6.根据权利要求1所述的方法,其中对所述图像特征图和所述语义特征图进行所述特征融合包括:
使用以下至少一项进行所述特征融合:
基于语义的深度学习模型;以及
基于图像的深度学习模型。
7.根据权利要求1所述的方法,其中确定所述文本位置信息和/或所述文本类型信息包括:
使用经训练的版面分析模型来确定所述文本位置信息和/或所述文本类型信息。
8.根据权利要求7所述的方法,其中所述版面分析模型包括两个并列的多层前馈网络模型。
9.一种模型训练方法,包括:
获取训练文档图像的图像特征图和语义特征图;
对所述图像特征图和所述语义特征图进行特征融合,以获得融合特征图;以及
训练版面分析模型,以利用经训练的所述版面分析模型使得满足以下至少一项:
基于所述融合特征图所确定的至少一个文本位置信息和针对所述待处理文档图像预先标注的至少一个标注位置信息相同的概率大于位置概率阈值,所述至少一个文本位置信息与所述待处理文档图像所包括的至少一个部分对应;以及
基于所述融合特征图所确定的至少一个文本类型和针对所述待处理文档图像预先标注的至少一个标注文本类型相同的概率大于类型概率阈值,所述至少一个文本类型与所述至少一个部分对应。
10.一种文档版面分析装置,包括:
第一获取模块,被配置为获取待处理文档图像的图像特征图和语义特征图;
第一特征融合模块,被配置为对所述图像特征图和所述语义特征图进行特征融合,以获得融合特征图;以及
第一确定模块,被配置为基于所述融合特征图,确定与所述待处理文档图像包括的所述文本内容对应的文本位置信息和/或文本类型信息。
11.根据权利要求10所述的装置,其中所述第一获取模块包括:
图像特征图获取模块,被配置为通过使用卷积神经网络对所述待处理文档图像进行特征计算来获取所述图像特征图。
12.根据权利要求10所述的装置,其中所述第一获取模块包括:
位置信息确定模块,被配置为确定所述待处理文档图像所包括的文本内容以及与所述文本内容对应的位置信息;以及
第一语义特征图生成模块,被配置为基于所述文本内容和所述位置信息来生成所述文本内容的所述语义特征图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110700122.1/1.html,转载请声明来源钻瓜专利网。