[发明专利]文档图像的文档版面分析方法、装置及存储介质有效
申请号: | 201811152315.2 | 申请日: | 2018-09-29 |
公开(公告)号: | CN110969056B | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 程战战 | 申请(专利权)人: | 杭州海康威视数字技术股份有限公司 |
主分类号: | G06V30/40 | 分类号: | G06V30/40;G06T3/60;G06T5/00 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 刘映东 |
地址: | 310051 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 图像 版面 分析 方法 装置 存储 介质 | ||
本发明是关于一种文档图像的文档版面分析方法、装置及存储介质,涉及图像处理技术领域。在本发明实施例中,获取文档图像中待分析的文档版面,由于提取了该文档版面中的至少一个文字区块,并对该至少一个文字区块进行文字识别,得到至少一个文字区块对应的文字信息,因此,可以根据该至少一个文字区块对应的文字信息,确定该至少一个文字区块对应的至少一个主题信息,进而根据该至少一个主题信息,确定该文档版面的描述信息。如此,当用户在查阅文档版面时,可以根据该文档版面的描述信息快速获知该文档版面所表达的含义,提高了查阅文档版面的效率。
技术领域
本发明涉及图像处理技术领域,尤其涉及一种文档图像的文档版面分析方法、装置及存储介质。
背景技术
文档图像是指以图像格式呈现的一种文档,而文档图像的文档版面是指文档图像中包括多个区块,不同区块用于承载一种信息格式或者多种信息格式的内容。信息格式可以为文字、图像或者表格等。文档图像的文档版面由于内容分块清晰,已经被广泛应用在简历或者档案等很多场景中。
文档图像的文档版面由于不可编辑的特点,用户在查阅文档版面时,只能将该文档版面的所有区块包含的内容阅读完,然后确定每个文字区块所表达的含义,进而人为总结出整个文档版面所表达的含义。例如,公司的人力资源部在面对大量的文档图像类的简历时,必须对每个简历进行查看进而筛选,无法快速得到每个简历的描述信息,导致筛选简历的效率较低。再例如,档案馆的档案管理员在对大量文档图像类的档案进行整理时,由于无法快速获知每个档案的描述信息,会大大降低整理档案的效率。因此,自动对文档版面进行分析以得到该文档版面的描述信息是目前亟需解决的一个问题。
发明内容
本发明提供一种文档图像的文档版面分析方法、装置及存储介质,可以解决无法自动且快速地获取文档版面的描述信息的问题。
第一方面,提供一种文档图像的文档版面分析方法,所述方法包括:
获取文档图像中待分析的文档版面;
提取所述文档版面中的至少一个文字区块,并对所述至少一个文字区块进行文字识别,得到所述至少一个文字区块对应的文字信息;
根据所述至少一个文字区块对应的文字信息,确定所述至少一个文字区块对应的至少一个主题信息;
根据所述至少一个主题信息,确定所述文档版面的描述信息。
在一个可能的实现方式中,所述获取文档图像中待分析的文档版面之后,还包括:
对所述文档版面进行灰度处理,得到所述文档版面的灰度图像;
对所述灰度图像进行高斯模糊处理,得到所述文档版面的高斯模糊图像;
对所述高斯模糊图像进行锐化处理。
在一个可能的实现方式中,所述获取文档图像中待分析的文档版面之后,还包括:
检测所述文档版面是否处于倾斜状态;
当检测到所述文档版面处于倾斜状态时,对所述文档版面进行倾斜矫正。
在一个可能的实现方式中,所述对所述文档版面进行倾斜矫正,包括:
旋转所述文档版面,并确定所述文档版面在旋转过程中对应的多个垂直投影直方图;
根据所述多个垂直投影直方图确定所述文档版面的多个行间距;
根据所述多个行间距中的最大行间距确定所述最大行间距对应的目标垂直投影直方图;
将所述目标垂直投影直方图对应的文档版面确定为所述倾斜矫正后的文档版面。
在一个可能的实现方式中,所述提取所述文档版面中的至少一个文字区块,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州海康威视数字技术股份有限公司,未经杭州海康威视数字技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811152315.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种带口罩的耳机
- 下一篇:一种基于小冲孔蠕变技术的服役部件剩余寿命预测方法
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序