[发明专利]印刷蒙古文文本切分方法有效

申请号：	200710065195.8	申请日：	2007-04-06
公开（公告）号：	CN101025791A	公开（公告）日：	2007-08-29
发明（设计）人：	丁晓青;靳简明;彭良瑞;王华;刘长松;方驰	申请（专利权）人：	清华大学
主分类号：	G06K9/72	分类号：	G06K9/72
代理公司：	暂无信息	代理人：	暂无信息
地址：	100084北京市100***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	印刷蒙古文文本切分方法，属于光学字符识别中的字符切分领域。本发明特征在于：在连通体分类的基础上，选择部分连通体竖直投影，分割文本图像成子区域，然后检测多列子区域，归并字符块实现多列子区域的文字列切分；随后把文字列切分成词；接着估计文字列各处的基线位置；最后根据基线位置和词轮廓寻找字素切点，把词切分成字素。本发明在多字体多字号印刷蒙古文文本测试集上的字素切分正确率达到98.5％以上。
搜索关键词：	印刷蒙古文文本切分方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.印刷蒙古文文本切分方法，其特征在于：首先在连通体分类的基础上，先选择部分连通体竖直投影把输入文本图像分割成子区域，然后检测多列子区域，归并连通体实现多列子区域的文字列切分；然后把文字列切分成词；随后估计文字列各处的基线位置；最后根据基线位置以及词轮廓寻找字素切点；在由图像采集设备和计算机组成的系统中，该方法依次含有以下步骤：第1步，列切分令I表示输入的文本图像，H是I的高度，W是I的宽度，连通体C的左边界、上边界、右边界、下边界、宽度和高度分别表示为l、t、r、b、w和h，附加了上下标的C表示特定的连通体，附加了上下标的l、t、r、b、w和h分别表示特定连通体的左边界、上边界、右边界、下边界、宽度和高度；第1.1步，连通体分类根据高度和宽度信息，把输入文本图像I上所有的连通体{C_nB|nB＝1，2，...，nBlock}分成三类：其中w‾=1nBlockΣnB=1nBlockwnB,]]>是所有连通体的平均宽度；第1.2步，子区域切分对MIDDLE类连通体竖直投影，投影值为0的位置把文本区域分割成多个子区域，每个子区域包含一条或多条文字列；第1.3步，多列子区域检测对每个子区域求出所有水平交叠、竖直不交叠的MIDDLE类连通体组CC＝{(C_I，C_J)|YOL(C_I，C_J)＞0，XOL(C_I，C_J)＝0，C_I∈MIDDLE，C_J∈MIDDLE}，其中，XOL(C_I，C_J)＝max(min(r_I，r_J)-max(l_I，l_J)，0)，XOL(C_I，C_J)表示连通体C_I和连通体C_J在水平方向上的交叠长度，YOL(C_I，C_J)＝max(min(b_I，b_J)-max(t_I，t_J)，0)，YOL(C_I，C_J)表示连通体C_I和连通体C_J在竖直方向上的交叠长度；如果‖CC‖＞10，就判定该子区域是多列子区域；第1.4步，多列子区域切分按照上边界升序排列多列子区域内部所有的MIDDLE类连通体，按顺序每次取出一个连通体C_n和已经取出的所有连通体C₁，C₂，...，C_n-1比较，找到水平方向上交叠最多的连通体C_X，即CX=argmaxCi(XOL(Cn,Ci)),]]>i＝1，2，...，n-1，若C_n和C_X竖直交叠部分足够大，即XOL(Cn,CX)>w‾/2,]]>C_n和C_X就属于同一文字列，否则C_n属于新文字列，取出所有连通体后，就得到了多列子区域的文字列切分结果；第1.5步，切分BIG类连通体对于每个连通体C_B∈BIG，在文字列L^(nL)内寻找连通体C^(nL)(nL＝1，2，...，nLine)，即C(NL)=argminCNB(nL)(|tB+bB-tNB(nL)-bNB(nL)|),CNB(nL)∈NB(nL),]]>其中NB(nL)={CNB(nL)|CNB(nL)∈L(nL),CNB(nL)∈MIDDLE,]]>VDIS(CNB(nL),CB)<w‾×5,XOL(CNB(nL),CB)>w‾/3},]]>NB^(nL)表示第nL条文字列内，在C_B附近和C_B水平交叠的所有MIDDLE类连通体，VDIS(CNB(nL),CB)=max(max(tNB(nL),tB)-min(bNB(nL),bB),0),]]>VDIS(C_NB^(nL)，C_B)表示C_NB^(nL)和C_B之间的竖直距离，则C^(nL)是在NB^(nL)中和C_B竖直距离最近的连通体；若C^(m)和C^(m+1)存在，就说明在第m条和m+1条文字列内，在C_B附近都存在连通体和C_B水平交叠，也就是说C_B跨越了第m条和m+1条文字列，需要在x=r(m)+l(m+1)2,]]>处切分C_B，在所有跨越文字列的位置把C_B切分成多个部分，标记每个部分为MIDDLE类，并分配到相应的文字列；第1.6步，插入SMALL类连通体对于每个连通体C_S∈SMALL，计算C_S和每条文字列的距离，并把其分配到距离最近的文字列：计算C_S和文字列L^(nL)的距离的方法如下：寻找满足条件的连通体C_t和C_b，即Ct=argminCTB(nL)(tS-tTN(nL)),CTB(nL)∈TB(nL),]]>Cb=argminCBB(nL)(bBB(nL)-bS),CBB(nL)∈BB(nL),]]>其中TB(nL)={CTB(nL)|CTB(nL)∈L(nL),CTB(nL)∈MIDDLE,tS>tTB(nL)},]]>BB(nL)={CBB(nL)|CBB(nL)∈L(nL),CBB(nL)∈MIDDLE,bS<bBB(nL)},]]>则C_S和文字列L^(nL)的距离为第2步，词切分每个词由一个主体部分和若干字素附加部分组成，竖直方向上不和其他连通体交叠的连通体以及竖直方向上和其他连通体交叠，但是宽度足够宽，高度足够高的连通体是词的主体部分，剩余的连通体则属于字素附加部分；把每个字素附加部分归并给最近的词主体部分；第3步，基线估计令L表示当前处理的文字列图像，H_L是L的高度，W_L是L的宽度；第2.1步，基线宽度估计令HRUN={(xnR(s),xnR(e),ynR(se))|nR=1,2,...,nRun}]]>是L中的所有水平黑像素游程，则HW(runW)=||{(xnR(s),xnR(e),ynR(se))|(xnR(s),xnR(e),ynr(se))∈HRUN,xnR(e)-xnR(s)=runW}||,]]>runW＝1，2，...，W_L，由此可得基线的宽度为W0=argmax(HW(runW)),runW]]>runW＝1，2，...，W_L第2.2步，基线位置估计把文字列L分成个部分，每个部分的长度为α×W₀，α在10～15之间取值，令VP^(nP)(x)(x＝0，1，...，W_L-1)是L只保留第nP部分的图像的竖直投影结果，那么第nP部分的基线位置为，BLeft(nP)=argmaxx(Σk=0W0-1VP(nP)(x+k)),]]>x＝0，1，...，W_L-W₀，BRight(nP)=BLeft(nP)+W0-1,]]>其中B_Left^(nP)和B_Right^(nP)分别表示基线的左边界和右边界，这样就可以得到L任意处的基线的左边界B_Left(y)和右边界B_Right(y)，BLeft(y)=BLeft(nP)t(np)≤y<b(nP)BRight(y)=BRight(nP)t(nP)≤y<b(nP),]]>其中t^(nP)和b^(nP)分别是第nP部分的上、下边界；第4步，字素切分令P表示当前处理的词图像，H_P是P的高度，W_P是P的宽度；第4.1步，字素切点确定字素切点满足如下条件：(A)切点在基线上；(B)切点上方，字母的左轮廓和/或右轮廓远离基线区域；(C)切点下方，字母的左轮廓和/或右轮廓远离基线区域；定义函数D(x)计算每个位置的切分代价，D(x)＝abs(B_Left(y)-L(y))+abs(B_Right(y)-R(Y))，y＝0，1，...，H_P-1，其中L(y)和R(y)分别是词的左轮廓和右轮廓，则小于W₀的D(x)的极小值处都是字素切点第4.5步，附加部分切分及分配如果附加部分和多个字素的主体部分在竖直方向上交叠，则该附加部分是粘连的，若该附加部分跨越字素切点y_A，则在y_A附近附加部分水平投影值最小处切分附加部分；最后把每个附加部分分配给最近的字素主体部分。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学，未经清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/200710065195.8/，转载请声明来源钻瓜专利网。

上一篇：燃料电池设备以及其方法
下一篇：一种纯铜及铜合金带材的短流程高效制备方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]印刷蒙古文文本切分方法有效

专利文献下载