[发明专利]一种长文本资料的文本识别方法有效

专利信息
申请号: 202210245889.4 申请日: 2022-03-14
公开(公告)号: CN114359889B 公开(公告)日: 2022-06-21
发明(设计)人: 杜博文 申请(专利权)人: 北京智源人工智能研究院
主分类号: G06V20/62 分类号: G06V20/62;G06V10/24;G06V30/12;G06N3/04;G06N3/08
代理公司: 北京动力号知识产权代理有限公司 11775 代理人: 梁艳
地址: 100084 北京市海淀区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文本 资料 识别 方法
【说明书】:

本发明公开了一种长文本资料的文本识别方法,包括:获取长文本资料的待检测图像;使用用于检测长文本的场景文字检测模型对所述待检测图像中的文本进行文本框检测,获取多个预测点及各预测点对应的文本框;根据各个所述文本框内的文本行识别所述待检测图像的扭曲状态是否超过预设状态,若是,则对该待检测图像进行扭曲矫正;对扭曲矫正后的待检测图像进行文本识别。解决了长文本图像文本检测效果差的问题,而且实现了对扭曲文本的检测和矫正,很好的适应了复杂场景下图像的文本检测,并保证和提高了文本检测的准确度,为实现准确的文本识别奠定了基础;适应了对用户不专业拍摄生成的图像进行文本检测的场景,提高了用户的使用体验,易于推广应用。

技术领域

本发明涉及智能医疗数据处理技术领域,尤其涉及一种长文本资料的文本识别方法。

背景技术

智能医疗技术需要大量的医疗相关数据,如化验数据、治疗数据等。这些数据一般来源于医学文献、医学网站和医疗诊疗等。其中,诊疗数据会以纸质方式保存在患者手中,因此如何将纸质数据转换为计算机可处理的结构数据就成为获取诊疗数据,促进智能医疗发展的关键。

OCR(Optical Character Recognition,光学字符识别)技术可以将纸质单据中的文字数据转换为计算机可以认知并使用的结构化数据。具体的,OCR技术可以使计算机识别纸张中的文字,能够将图像中不可复制的文字转换成可编辑的文字形式,为后续的文本摘要、提取等功能提供基础服务。OCR技术包括文本检测和文本识别两个过程,其中,文本检测主要作为文本识别的前处理操作过程,目的是从图片中选出文字所在区域,提供给文本识别模块进行识别。因此,可以利用OCR技术将拍照收集的纸质资料的电子图像转换成电子档案。

然而在实际应用过程中,OCR文本检测会遇到各种各样的问题。比如,在拍摄过程中由于光照或纸张阴影的影响,生成的电子图像会存在一些明暗不一的区域,而这些区域会影响OCR文本检测的准确率,进而影响OCR文本识别的准确率;对于医学病历等含有长文本信息的图片时,在进行文本检测时,由于模型自身存在的缺陷,会导致长文本检测的效果非常差;拍摄过程中,如果纸张摆放存在扭曲,或者手持纸张拍摄,得到的文本的图像也会存在扭曲,这样导致文本检测过程中无法将长文本全部置于检测框中。

针对这些问题,技术人员提出了多种解决办法。比如:

论文EAST: An Efficient and Accurate Scene Text Detector提出了一个简单而强大的方法,可以在自然场景中进行快速准确的文本检测。该方法可以直接预测完整图像中任意方向和四边形形状的单词或文本行,使用单个神经网络消除不必要的中间步骤(例如,候选聚合和单词分区)。其使用的文本检测模型能够很快速的给出结果,但是处理有大篇幅长文本的医学病历时会出现长文本检测效果差,以及出现文本扭曲时不能很好的检测到文本的信息。

专利号为CN108647681B,名称为“一种带有文本方向校正的英文文本检测方法”的专利,提出的方法分别对英文文本图像各个通道的进行最大稳定极值区域检测,得出候选文本区域;建立基于卷积神经网络模型的分类器,过滤错误的候选文本区域,获得初步文本区域;利用双层文本分组算法将所述初步文本区域分组;将分组后的初步文本区域进行方向校正,从而获得校正文本。该方法不仅可以对光照与阴影对图像的影响进行了很好的处理,而且能够对小倾斜进行矫正,但是无法解决在现实场景中,由于拍摄的角度以及纸张摆放扭曲等对文本检测造成的影响。

专利号为CN105574513B,名称为“文字检测方法和装置”的专利,提出的方法为:接收待检测图像;经由语义预测模型生成所述待检测图像的全图的文字区域概率图,其中,所述文字区域概率图使用不同的像素值区分所述待检测图像的文字区域和所述待检测图像的非文字区域;所述语义预测模型是神经网络;以及对所述文字区域概率图进行分割操作,以确定所述文字区域。该方法不仅能够很好的处理非均匀光照的问题,而且也能处理一些倾斜文本的问题,但是在扭曲的长文本医学资料的文本检测上会存在一些问题。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智源人工智能研究院,未经北京智源人工智能研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210245889.4/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top