[发明专利]文本序列识别方法和装置有效

专利信息
申请号: 201610260552.5 申请日: 2016-04-25
公开(公告)号: CN107305630B 公开(公告)日: 2021-03-19
发明(设计)人: 陈智能 申请(专利权)人: 腾讯科技(深圳)有限公司;中国科学院自动化研究所
主分类号: G06K9/00 分类号: G06K9/00;G06K9/34
代理公司: 广州华进联合专利商标代理有限公司 44224 代理人: 何平;邓云鹏
地址: 518000 广东省深圳*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 序列 识别 方法 装置
【说明书】:

发明涉及一种文本序列识别方法和装置,所述方法包括:从文档图像中分割出文本序列图像;获取对所述文本序列图像进行字符过切分处理的候选切分点和相应的切分点置信度;根据所述候选切分点确定可选的切分字符图像组合;根据对所述切分图像组合中的切分字符图像进行字符识别的字符识别得分和相应的切分点置信度融合得到的识别置信度,从所述可选的切分字符图像组合中选择识别置信度最大的切分字符图像组合;将所述识别置信度最大的切分字符图像组合的字符识别结果输出。本发明提供的文本序列识别方法和装置,不仅对存在字符粘连情况的低质量文档图像识别准确性有很大提升,而且对于高质量文档图像识别准确性也有保证。

技术领域

本发明涉及图像识别技术领域,特别是涉及一种文本序列识别方法和装置。

背景技术

文本行识别以识别由字符串组成的文本行为目标,一直是模式识别领域的活跃课题。目前,在高分辨率的文档图像中识别出文本行,已经得到了较好的解决。但是,低质量文档图像中的文本行识别却仍然没有较好的解决方案。

目前,对于各种文档图像的文本行识别,可通过字符识别得分和语言模型得分对识别出的可能的文本行字符串进行打分,将得分最高的文本行字符串作为识别结果。然而,低质量文档图像中会存在字符粘连的情况,这种情况下文本行识别结果准确性会降低很多。

发明内容

基于此,有必要针对将存在字符粘连情况的低质量文档图像进行文本序列识别准确性低的问题,提供一种文本序列识别方法和装置。

一种文本序列识别方法,所述方法包括:

从文档图像中分割出文本序列图像;

获取对所述文本序列图像进行字符过切分处理的候选切分点和相应的切分点置信度;

根据所述候选切分点确定可选的切分字符图像组合;

根据对所述切分图像组合中的切分字符图像进行字符识别的字符识别得分和相应的切分点置信度融合得到的识别置信度,从所述可选的切分字符图像组合中选择识别置信度最大的切分字符图像组合;

将所述识别置信度最大的切分字符图像组合的字符识别结果输出。

一种文本序列识别装置,所述装置包括:

文本序列图像分割模块,用于从文档图像中分割出文本序列图像;

字符过切分处理模块,用于获取对所述文本序列图像进行字符过切分处理的候选切分点和相应的切分点置信度;

识别模块,用于根据所述候选切分点确定可选的切分字符图像组合;根据对所述切分图像组合中的切分字符图像进行字符识别的字符识别得分和相应的切分点置信度融合得到的识别置信度,从所述可选的切分字符图像组合中选择识别置信度最大的切分字符图像组合;将所述识别置信度最大的切分字符图像组合的字符识别结果输出。

上述文本序列识别方法和装置,从文档图像中分割出文本序列图像后,获取对文本序列图像进行字符过切分处理的候选切分点以及切分点置信度,这样利用候选切分点可以构造出各种可选的切分字符图像组合,以尽可能覆盖文本序列图像真实的切分图像组合。在可选的切分字符图像组合中,利用字符识别得分和切分点置信度融合得到的识别置信度来选择最优的切分字符图像组合。这样识别置信度可以综合反映字符识别结果的可信程度以及相应的切分字符图像组合的切分方式的可信程度,从而可以依据文本序列中字符本身的形态特征进行文本序列识别,不仅对存在字符粘连情况的低质量文档图像识别准确性有很大提升,而且对于高质量文档图像识别准确性也有保证。

附图说明

图1为一个实施例中电子设备的内部结构示意图;

图2为一个实施例中文本序列识别方法的流程示意图;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司;中国科学院自动化研究所,未经腾讯科技(深圳)有限公司;中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610260552.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top