[发明专利]一种基于激活力模型的图片中文本识别纠错方法有效

专利信息
申请号: 201610458328.7 申请日: 2016-06-22
公开(公告)号: CN106127265B 公开(公告)日: 2018-02-06
发明(设计)人: 马占宇;周环宇;司中威 申请(专利权)人: 北京邮电大学
主分类号: G06K9/68 分类号: G06K9/68;G06K9/20
代理公司: 暂无信息 代理人: 暂无信息
地址: 100876 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 激活 模型 图片 文本 识别 纠错 方法
【说明书】:

技术领域

发明利用概率统计以及数据挖掘,构建激活力词典,结合贝叶斯理论解决图片中文本识别出现的识别错误问题。

背景技术

图片识别在智能识别领域具有相当重要的意义,随着社会的不断发展各种信息急剧膨胀,图片因其便捷性且不易篡改性成为十分通用的信息保存手段,在此背景下,图片中的文字识别显得格外重要。

目前虽然已经存在大量的图片文字识别方法,例如传统的OCR技术或者现在流行的各种深度学习衍生识别方法,这些方法都需要的高识别率都建立在高分辨的基础上,但总是存在大量分辨率不高的图片文本需要进行识别,而对于这些分辨率不高的PDF图片或者模糊的相机照片,已存在的方法都不能保证对整个文档的完全识别正确,而对于大段的文档如果使用人工校正无疑会耗费大量的人力物力。现存的方法都注重对汉字字形的识别,而忽略了汉字的联系关系,即汉字只有通过一定的排列顺序才能构成可供人理解的语句,而对于需进行文字识别的绝大部分文档无疑都是具有连贯语义的;除此之外,由于汉字特有的文字结构,只要图片的清晰程度达到一定的要求,总有一部分简单文字可以被准确的识别出来。通过上述两个特点,我们就可以利用汉字间的相互关联关系对识别相似度不高的部分文字进行再选择。

发明内容

针对现有图片文字识别技术存在部分文字识别错误的问题,本发明的目的是提供一种文字识别纠错技术对识别相似度较低的文字进行自动再识别处理,最大限度的减少图片文本的识别错误问题。

为达到上述目的,本发明提出的文字识别自动纠错方法包括以下步骤:

字典构建步骤:构建激活力字典,旨在挖掘汉字间的潜在语义关系,进而获得汉字间的相互影响关系,从而获得各个汉字前方以及后方可能出现的其他汉字;

不确定字纠正步骤:使用通用方法获取识别出的字符以及对应的识别相似度,若其中存在某一字符的相似度高于某一θ值的,认为其对应的字符为正确识别结果;若不存在,则将这些字符以及相似度作为参考先验概率,利用步骤一中构建的字典并结合贝叶斯公式筛选出最佳字。

字典构建步骤中,对选定字进行建模,此步骤具体过程如下:

1)、利用汉语语料库获取包含选定字的语料数据,并定义分隔符,将所有标点符号都设定为分隔符;

2)、统计用于建立词典的字i在语料库中的出现频率fi

3)、统计任意两个距离小于等于ε的字i和j(区分先后)共同出现的频率fij并记录所有的距离出现的次数dijk(1≤k≤ε),并计算出这两个字i和j共同出现的平均距离dij,计算公式定义如下

值得说明的是,如果在规定距离内出现分割符,则此时不对分隔符两端的字统计共现频率。

4)、根据前面三个步骤获取的数据计算出任意两个字i和j之间的激活力afij

5)、设定阈值t,将第4)所得的激活力数据中低于t的数据全部滤除,将选定字i对应的afxi和afix取出并按大小顺序排序作为i前面(afxi)和后面(afix)最可能出现的字x。值得说明的是,由于已经滤除了一部分数据,当i影响字不存在时,以空值表示。

不确定字纠正步骤,此步骤的具体过程如下:

1)、假定已经通过通用方法获取了字符i的识别结果wi和对应的相似度λi,其中wi=[wi1,wi2,…,win]T,wix为识别出的可能的字符,λi=[λi1,λi2,…,λin]T,λix为对应的相似度。当存在λix大于θ时,认为wix即为正确识别结果;当不存在时,首先滤除λix小于对应的字符,将剩下的作为候选字符。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610458328.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top