[发明专利]一种扫描文档信息处理方法、装置、电子设备及存储介质在审
申请号: | 202110254868.4 | 申请日: | 2021-03-09 |
公开(公告)号: | CN112949514A | 公开(公告)日: | 2021-06-11 |
发明(设计)人: | 廖林涛;朱增 | 申请(专利权)人: | 广州文石信息科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32;G06K9/34;G06K9/40;G06F40/106;G06F40/109 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 许庆胜 |
地址: | 510000 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 扫描 文档 信息处理 方法 装置 电子设备 存储 介质 | ||
本发明公开了一种扫描文档信息处理方法、装置、电子设备及存储介质,用于解决现有的扫描文档受文字损坏缺失的影响,阅读体验差的技术问题。其中,方法包括:获取扫描文档;扫描文档中包括多个字符;对扫描文档进行文字识别,得到每个字符的文字信息和位置信息;计算文字信息的文字置信度和位置信息的位置置信度;根据文字置信度和位置置信度确定可信字符;采用可信字符的文字信息和位置信息渲染扫描文档,得到渲染文档;显示渲染文档。
技术领域
本发明涉及文档转换技术领域,尤其涉及一种扫描文档信息处理方法、装置、电子设备及存储介质。
背景技术
随着科技技术的不断成熟,信息化水平的不断提高,在社会各行各业、不同领域,都建立起了电子档案,创建了大量的扫描文档。然而,随着纸质文档的存放时间过长,文档字迹会存在部分损坏缺失,所以扫描文档阅读起来体验不够友好。此外,扫描文档是没有文字和位置信息的,无法进行选词,批注,高亮,搜索等文字操作。
另一方面,随着墨水屏电子书阅读器的蓬勃发展以及硬件水平的不断提升,利用大尺寸阅读器设备进行阅读已经越来越普遍。对于10.3寸及以上的大屏阅读器设备,如何提高用户在阅读器上阅读扫描文档的体验,已经成为当前的研究热点。
现有技术主要通过以下两种方式进行阅读优化:
第一种方案是先从版式文档中提取流式信息,以将版式文档转化为流式文档,再通过流式文档的显示装置进行显示,由此实现版式文档的流式显示。然而,对于扫描文档而言,这种方法无法提取流式信息,需要开发重排引擎,工作量较大。同时,对于文字损坏丢失的纸质扫描文档,该方法没法进行优化阅读,阅读体验差。
第二种方案是使用其他网站提供的云服务,对扫描文档进行文本识别检测,嵌入文字和位置信息。然而,这种方案存在文档被盗用的风险;此外,由于不同的服务商算法不一样,检测到的结果也不一样,有的缺失段落信息,没有嵌入文字置信度信息。另外,对于用户来说,增加了成本,需要手动上传文档,然后下载文档,手动校正文档,用户体验差。
发明内容
本发明提供了一种扫描文档信息处理方法、装置、电子设备及存储介质,用于解决现有的扫描文档受文字损坏缺失的影响,阅读体验差的技术问题。
本发明提供了一种扫描文档信息处理方法,包括:
获取扫描文档;所述扫描文档中包括多个字符;
对所述扫描文档进行文字识别,得到每个所述字符的文字信息和位置信息;
计算所述文字信息的文字置信度和所述位置信息的位置置信度;
根据所述文字置信度和所述位置置信度确定可信字符;
采用所述可信字符的文字信息和位置信息渲染所述扫描文档,得到渲染文档;
显示所述渲染文档。
可选地,所述扫描文档包括至少一个待识别页面;所述对所述扫描文档进行文字识别,得到每个所述字符的文字信息和位置信息的步骤,包括:
对所述待识别页面进行渲染,得到渲染图像;
对所述渲染图像进行预处理,得到预处理图像;
对所述预处理图像进行灰度化处理,得到灰度图像;
对所述灰度图像进行二值化处理,得到二值化图像;
去除所述二值化图像的噪声,得到去噪图像;
对所述去噪图像进行倾斜校正处理,得到校正图像;
对所述校正图像进行版面分析和字符切割,得到每个所述字符的位置信息;
对切割得到的每个所述字符进行文字识别,得到文字信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州文石信息科技有限公司,未经广州文石信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110254868.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种升降桌架
- 下一篇:一种双驱动可折叠共轴螺旋桨装置