[发明专利]印刷蒙古文文本切分方法有效

专利信息
申请号: 200710065195.8 申请日: 2007-04-06
公开(公告)号: CN101025791A 公开(公告)日: 2007-08-29
发明(设计)人: 丁晓青;靳简明;彭良瑞;王华;刘长松;方驰 申请(专利权)人: 清华大学
主分类号: G06K9/72 分类号: G06K9/72
代理公司: 暂无信息 代理人: 暂无信息
地址: 100084北京市100*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 印刷蒙古文文本切分方法,属于光学字符识别中的字符切分领域。本发明特征在于:在连通体分类的基础上,选择部分连通体竖直投影,分割文本图像成子区域,然后检测多列子区域,归并字符块实现多列子区域的文字列切分;随后把文字列切分成词;接着估计文字列各处的基线位置;最后根据基线位置和词轮廓寻找字素切点,把词切分成字素。本发明在多字体多字号印刷蒙古文文本测试集上的字素切分正确率达到98.5%以上。
搜索关键词: 印刷 蒙古文 文本 切分 方法
【主权项】:
1.印刷蒙古文文本切分方法,其特征在于:首先在连通体分类的基础上,先选择部分连通体竖直投影把输入文本图像分割成子区域,然后检测多列子区域,归并连通体实现多列子区域的文字列切分;然后把文字列切分成词;随后估计文字列各处的基线位置;最后根据基线位置以及词轮廓寻找字素切点;在由图像采集设备和计算机组成的系统中,该方法依次含有以下步骤:第1步,列切分令I表示输入的文本图像,H是I的高度,W是I的宽度,连通体C的左边界、上边界、右边界、下边界、宽度和高度分别表示为l、t、r、b、w和h,附加了上下标的C表示特定的连通体,附加了上下标的l、t、r、b、w和h分别表示特定连通体的左边界、上边界、右边界、下边界、宽度和高度;第1.1步,连通体分类根据高度和宽度信息,把输入文本图像I上所有的连通体{CnB|nB=1,2,...,nBlock}分成三类:其中w=1nBlockΣnB=1nBlockwnB,]]>是所有连通体的平均宽度;第1.2步,子区域切分对MIDDLE类连通体竖直投影,投影值为0的位置把文本区域分割成多个子区域,每个子区域包含一条或多条文字列;第1.3步,多列子区域检测对每个子区域求出所有水平交叠、竖直不交叠的MIDDLE类连通体组CC={(CI,CJ)|YOL(CI,CJ)>0,XOL(CI,CJ)=0,CI∈MIDDLE,CJ∈MIDDLE},其中,XOL(CI,CJ)=max(min(rI,rJ)-max(lI,lJ),0),XOL(CI,CJ)表示连通体CI和连通体CJ在水平方向上的交叠长度,YOL(CI,CJ)=max(min(bI,bJ)-max(tI,tJ),0),YOL(CI,CJ)表示连通体CI和连通体CJ在竖直方向上的交叠长度;如果‖CC‖>10,就判定该子区域是多列子区域;第1.4步,多列子区域切分按照上边界升序排列多列子区域内部所有的MIDDLE类连通体,按顺序每次取出一个连通体Cn和已经取出的所有连通体C1,C2,...,Cn-1比较,找到水平方向上交叠最多的连通体CX,即CX=argmaxCi(XOL(Cn,Ci)),]]>i=1,2,...,n-1,若Cn和CX竖直交叠部分足够大,即XOL(Cn,CX)>w/2,]]>Cn和CX就属于同一文字列,否则Cn属于新文字列,取出所有连通体后,就得到了多列子区域的文字列切分结果;第1.5步,切分BIG类连通体对于每个连通体CB∈BIG,在文字列L(nL)内寻找连通体C(nL)(nL=1,2,...,nLine),即C(NL)=argminCNB(nL)(|tB+bB-tNB(nL)-bNB(nL)|),CNB(nL)NB(nL),]]>其中NB(nL)={CNB(nL)|CNB(nL)L(nL),CNB(nL)MIDDLE,]]>VDIS(CNB(nL),CB)<w×5,XOL(CNB(nL),CB)>w/3},]]>NB(nL)表示第nL条文字列内,在CB附近和CB水平交叠的所有MIDDLE类连通体,VDIS(CNB(nL),CB)=max(max(tNB(nL),tB)-min(bNB(nL),bB),0),]]>VDIS(CNB(nL),CB)表示CNB(nL)和CB之间的竖直距离,则C(nL)是在NB(nL)中和CB竖直距离最近的连通体;若C(m)和C(m+1)存在,就说明在第m条和m+1条文字列内,在CB附近都存在连通体和CB水平交叠,也就是说CB跨越了第m条和m+1条文字列,需要在x=r(m)+l(m+1)2,]]>处切分CB,在所有跨越文字列的位置把CB切分成多个部分,标记每个部分为MIDDLE类,并分配到相应的文字列;第1.6步,插入SMALL类连通体对于每个连通体CS∈SMALL,计算CS和每条文字列的距离,并把其分配到距离最近的文字列:计算CS和文字列L(nL)的距离的方法如下:寻找满足条件的连通体Ct和Cb,即Ct=argminCTB(nL)(tS-tTN(nL)),CTB(nL)TB(nL),]]>Cb=argminCBB(nL)(bBB(nL)-bS),CBB(nL)BB(nL),]]>其中TB(nL)={CTB(nL)|CTB(nL)L(nL),CTB(nL)MIDDLE,tS>tTB(nL)},]]>BB(nL)={CBB(nL)|CBB(nL)L(nL),CBB(nL)MIDDLE,bS<bBB(nL)},]]>则CS和文字列L(nL)的距离为第2步,词切分每个词由一个主体部分和若干字素附加部分组成,竖直方向上不和其他连通体交叠的连通体以及竖直方向上和其他连通体交叠,但是宽度足够宽,高度足够高的连通体是词的主体部分,剩余的连通体则属于字素附加部分;把每个字素附加部分归并给最近的词主体部分;第3步,基线估计令L表示当前处理的文字列图像,HL是L的高度,WL是L的宽度;第2.1步,基线宽度估计令HRUN={(xnR(s),xnR(e),ynR(se))|nR=1,2,...,nRun}]]>是L中的所有水平黑像素游程,则HW(runW)=||{(xnR(s),xnR(e),ynR(se))|(xnR(s),xnR(e),ynr(se))HRUN,xnR(e)-xnR(s)=runW}||,]]>runW=1,2,...,WL,由此可得基线的宽度为W0=argmax(HW(runW)),runW]]>runW=1,2,...,WL第2.2步,基线位置估计把文字列L分成个部分,每个部分的长度为α×W0,α在10~15之间取值,令VP(nP)(x)(x=0,1,...,WL-1)是L只保留第nP部分的图像的竖直投影结果,那么第nP部分的基线位置为,BLeft(nP)=argmaxx(Σk=0W0-1VP(nP)(x+k)),]]>x=0,1,...,WL-W0BRight(nP)=BLeft(nP)+W0-1,]]>其中BLeft(nP)和BRight(nP)分别表示基线的左边界和右边界,这样就可以得到L任意处的基线的左边界BLeft(y)和右边界BRight(y),BLeft(y)=BLeft(nP)t(np)y<b(nP)BRight(y)=BRight(nP)t(nP)y<b(nP),]]>其中t(nP)和b(nP)分别是第nP部分的上、下边界;第4步,字素切分令P表示当前处理的词图像,HP是P的高度,WP是P的宽度;第4.1步,字素切点确定字素切点满足如下条件:(A)切点在基线上;(B)切点上方,字母的左轮廓和/或右轮廓远离基线区域;(C)切点下方,字母的左轮廓和/或右轮廓远离基线区域;定义函数D(x)计算每个位置的切分代价,D(x)=abs(BLeft(y)-L(y))+abs(BRight(y)-R(Y)),y=0,1,...,HP-1,其中L(y)和R(y)分别是词的左轮廓和右轮廓,则小于W0的D(x)的极小值处都是字素切点第4.5步,附加部分切分及分配如果附加部分和多个字素的主体部分在竖直方向上交叠,则该附加部分是粘连的,若该附加部分跨越字素切点yA,则在yA附近附加部分水平投影值最小处切分附加部分;最后把每个附加部分分配给最近的字素主体部分。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/200710065195.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top