[发明专利]多字体多字号印刷体藏文字符识别方法无效

申请号：	200410034107.4	申请日：	2004-04-23
公开（公告）号：	CN1570958A	公开（公告）日：	2005-01-26
发明（设计）人：	丁晓青;王华;刘长松;彭良瑞;方驰	申请（专利权）人：	清华大学
主分类号：	G06K9/72	分类号：	G06K9/72;G06K9/54;G06K9/46
代理公司：	暂无信息	代理人：	暂无信息
地址：	100084北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	多字体多字号印刷体藏文字符识别方法属于字符识别领域，其特征在于，提出了针对属于非方块字的印刷体藏文字符特点的归一化方案：将字符图像以基线，即上平线，为分界点分解成互不交叠的两个子图像，对每个子图像分别采用以重心和边框相结合的位置归一化和基于三次B样条函数插值的大小归一化方法；提取能充分反映藏文字符组成信息的四方向线素特征，利用线性鉴别分析LDA压缩降维后得到紧凑的字符特征向量。采用基于置信度分析的粗、细两级分类策略进行字符类别的判决，粗、细分类器分别采用带偏差的欧氏距离EDD和修正的二次鉴别函数MQDF。本发明在多字体多字号印刷体藏文单字测试集上的识别正确率达到99.83％，对实际文本的识别率也可达99％以上。
搜索关键词：	多字印刷体藏文字符识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.多字体多字号印刷体藏文字符识别方法，其特征在于，提出了针对属于非方块字的印刷体藏文字符特点的归一化方案：将字符图像以基线，即上平线，为分界点分解成互不交叠的两个子图像，对每个子图像分别采用以重心和边框相结合的位置归一化和基于三次B样条函数插值的大小归一化方法；提取能充分反映藏文字符组成信息的四方向线素特征，利用线性鉴别分析LDA压缩降维后得到紧凑的字符特征向量；采用基于置信度分析的粗、细两级分类策略进行字符类别的判决，粗、细分类器分别采用带偏差的欧氏距离EDD和修正的二次鉴别函数MQDF；在由图像采集设备和计算机组成的系统中，它依次含有以下步骤：(1)设定：(1.1)本发明处理的藏文字符类别总数c＝592；(1.2)归一化后字符宽度M、高度N；位置归一化参数β；(1.3)提取方向线素特征时，划分的子区域宽度M₀、高度N₀；子区域中各方块的特征向量对整个子区域特征向量的加权系数α_A，α_B，α_C，α_D；(1.4)粗分类器EDD中的参数C，θ_k，γ_k，其中k＝1，2，…，592；(1.5)置信度阈值Conf_TH；(2)字符样本的采集通过扫描仪向计算机输入印有多字体多字号藏文字符的文本，利用已有方法进行除噪声、二值化等必要预处理后，将藏文文本进行切分以分离单个字符，对每个字符的图像标定其对应的正确的字符的内码，由此完成用以训练和测试的藏文字符单字样本的采集，建立训练样本数据库；(3)归一化处理，包含字符位置和大小的归一化(3.1)定位单个藏文字符的基线位置设原始字符图像为[F(i，j)]_W×H，其中W为图像宽度，H为图像高度，图像位于第i行第j列的象素点的值为F(i，j)，i＝1，2，…，H，j＝1，2，…，W，计算字符图像的水平投影V(i)，i＝1，2，…，H为：V(i)=Σj=1wF(i,j),]]>则基线所在位置的纵坐标值P₁为：PI=argmaxi(V(i)-V(i-1)),i=2,3,···,H;]]>(3.2)以基线为分界点将输入图像分离成两个子图像[F(i，j)_W×H可以看作两个子图像的纵向拼接，其中为基线以上部分，即上元音部分；为基线以下部分，两者没有交叠而是纵向组合在一起合成[F(i，j)]_W×H，且H₁+H₂＝H，由P₁和字符顶部的纵坐标的差值可确定出H₁的大小；对应的，归一化后的目标字符图像[G(i，j)]_M×N也可以看作两个子图像的纵向拼接，其中M为目标图像的宽度，N为图像高度；为基线以上部分图像，即上元音部分；为基线以下部分；两者也没有交叠而是纵向组合成[G(i，j)]_M×N，且设定N₁＝N/4，N₂＝3N/4；(3.3)位置归一化参考点U_k(u_Ik，u_Jk)，k＝1，2的选择[Fk(i,j)]W×Hk,k=1,2]]>重心和外边框中心分别为Ak(α_Ik，α_Jk)，k＝1，2和B_k(b_Ik，b_Jk)，k＝1，2其中则U_k(u_Ik，u_Jk)，k＝1，2取介于A_k(a_Ik，a_Jk)，k＝1，2与B_k(b_Ik，b_Jk)，k＝1，2之间的一点，即：其中β为常数且0≤β≤1；移动输入图像点阵，使该参考点，位于目标点阵[Gk(i,j)]M×Nk,k=1,2]]>的几何中心，从而完成输入字符的位置归一化；(3.4)大小归一化因[Fk(i,j)]W×Hk,k=1,2]]>与[Gk(i,j)]M×Nk,k=1,2]]>之间的关系为： G_k(i，j)＝F_k(i/r_i，j/r_j)，k＝1，2，其中r_i和r_j分别为i和j方向的尺度变换因子：r_i＝N_k/H_k，r_j＝M/W；采用三次B样条函数进行插值运算；对于给定(i，j)，令：其中：[·]为取整函数；插值过程可表示为：Gk(i,j)=Fk(p0+Δp,q0+Δq)=Σm=-12Σl=-12Fk(p0+m,q0+l)RB(m-Δp)RB(-(l-Δq)),]]>式中的R_B(z)为三次B样条函数：RB(z)=16[(z+2)3W(z+2)-4(z+1)3W(z+1)+6z3W(z)-4(z-1)3W(z-1)],]]>其中W(z)为阶跃函数，(4)提取藏文字符的四方向线素特征(4.1)字符轮廓提取扫描整个字符点阵，对于某个位置的黑象素，若它的8邻域中的黑象素和背景象素的个数均大于0，则保留该黑象素，否则，将该黑象素设为背景象素；这样，得到归一化后的字符图像[G(i，j)_M×N的轮廓图像[G′(i，j)_M×N；(4.2)方向线素特征的形成首先，对于字符轮廓点阵[G′(i，j)]_M×N中的每一个黑象素(i，j)，根据它与相邻的另外两个黑象素的之间的位置关系，赋予它横、竖、撇、捺四种线素，并记为一个4维向量X(i，j)＝(x_v，x_k，x_p，x_o)^T；将整个大小为M×N的字符轮廓图像[G′(i，j)]_M×N均匀划分为(2MM0-1)×(2NN0-1)]]>个宽度为M₀、高度为N₀的子区域，每个子区域又进一步划分成互相嵌套的、大小依次为(M₀/4)×(N₀/4)、(M₀/2)×(N₀/2)、(3M₀/4)×(3N₀/4)和M₀×N₀的A、B、C、D等4个小方块；每个上小方块的特征向量X_A＝(x_v，x_k，x_p，x_o)^T、X_B＝(x_v，x_k，x_p，x_o)^T、X_C＝(x_v，x_k，x_p，x_o)^T、X_D＝(x_v，x_k，x_p，x_o)^T表示为该方块内所有黑象素特征向量的和：XA=Σ(i,j)∈AX(i,j),]]>XB=Σ(i,j)∈BX(i,j),]]>XC=Σ(i,j)∈CX(i,j),]]>XD=Σ(i,j)∈DX(i,j),]]>整个子区域的方向线素特征向量X_S＝(x_v，x_k，x_p，x_o)^T由该子区域中各方块特征向量的加权和来表示： X_S＝α_AX_A+α_BX_B+α_CX_C+α_DX_D，其中α_A，α_B，α_C，α_D为介于0和1之间的常数；这样，从每个子区域都可以得到一个4维特征向量后，将所有子区域的特征向量按顺序排列在一起组成的表示输入字符的4(2MM0-1)×(2NN0-1)]]>维原始方向线素特征向量；(5)特征变换设藏文字符类别数为c，第ω类字符的训练样本数为O_ω，ω＝1，2，…，c，则对该字符类别的训练样本采用上述方法提取四方向线素特征后，得到特征向量集合为{X₁^ω，X₂^ω，…，X_Oω^ω}，其中X_k^ω(k＝1，2，…，O_ω)是4(2MM0-1)×(2NN0-1)]]>维向量；利用LDA变换对原始特征压缩如下：首先计算每个字符类ω(1≤ω≤c)特征向量的中心μ_ω、所有字符类的特征向量的中心μ、类间散度矩阵S_b和平均类内散度矩阵S_w：μr=1OωΣk=1OωXkω,]]>μ=1cΣω=1cμω,]]>Sb=1cΣω=1c(μω-μ)(μω-μ)T,]]>Sw=1cΣω=1c1OωΣk=1Oω(Xkω-μω)(Xkω-μω)T,]]>寻找变换矩阵Φ，使得t_r[(Φ^TS_wΦ)^-1(Φ^TS_bΦ)]达到最大，则LDA相应的特征变换为Y＝Φ^TX，这里Y是最具判别性的d维特征；(6)对输入字符所属类别的判断，即对未知类别的字符图像，提取特征，与识别库中已有的数据进行比较，以确定其正确的字符代码；(6.1)设计分类器对由LDA压缩得到的特征向量Y，计算各字符的均值向量Yω‾(ω=1,2,···,c)]]>和各字符的特征向量在每一维上的方差σ_s^ω(ω＝1，2，…，c，s＝1，2，…，d)，d为Y的维数，Yω‾=1OωΣk=1OωYkω,]]>σsω=1OωΣk=1Oω(yωks-yω‾s)2,]]>其中每个藏文字符类别ω(1≤ω≤c)的特征集合为将各字符的鉴别特征均值向量和各维的方差存入鉴别特征数据库文件中，同时将通过实验得到的分类器的参数存入库文件中；(6.2)分类判决对未知类别的输入字符图像，首先进行位置归一化和大小归一化处理，再提取四方向线素特征X，利用LDA线性变换矩阵Φ将原始方向线素特征X变换成Y＝Φ^TX＝(y₁，y₂，…，y_d)^T，d是变换后特征的维数；从库文件中读取所有字符类的均值向量Yω‾=(y1ω‾,y2ω‾,···ydω‾)T(ω=1,2,···,c)]]>和各字符类的各维的方差σ_s^ω(ω＝1，2，…，c，s＝1，2，…，d)，计算Y到的带偏差的欧氏距离D(Y,Yω‾):]]>D(Y,Yω‾)=Σs=1d[t(ys,yωs‾)]2,]]>其中将所有经过计算的D(Y,Yω‾),ω=1,2,···,]]>按照由小到大的顺序重新排序，选出前L(1≤L≤c)个距离及其所代表的字符类别码e_k，k＝1，2，…，L组成粗分类候选集CanSet＝{(e₁，D₁)，(e₂，D₂)…，(e_L，D_L)}，D₁≤D₂≤…≤D_L；计算CanSet中首字符的识别置信度Conf(CanSet)Conf(CanSet)=D2-D1D1,]]>若Conf(CanSet)高于一定的阈值Conf_TH，直接将(e₁，D₁)作为输入字符的识别结果输出，即认为输入字符属于e₁所对应的字符类别，且识别距离是D₁；否则，计算Y到CanSet中各内码所对应的字符类别的MQDF鉴别距离Q(Y,Yω‾),ω=1,2,···,L:]]>Q(Y,Yω‾)=1h2{Σl=1d(yl-yωl‾)2-Σl=1K(1-h2λωl)[(Y-Yω‾)Tφωl]2}+ln(h2(d-K)Πl=1Kλωl),]]>若Q(Y,Yτ‾)=min1≤ω≤LQ(Y,Yω‾),]]>则该输入字符属于e_τ所对应的字符类别，即τ=argmin1≤ω≤LQ(Y,Yω‾).]]>

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学，未经清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/200410034107.4/，转载请声明来源钻瓜专利网。

上一篇：环孢菌素类似物混合物及其作为免疫调节剂的用途
下一篇：用于发现网络设备的方法和装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]多字体多字号印刷体藏文字符识别方法无效

专利文献下载