[发明专利]西文单词中字符大小写的修正方法和装置有效
| 申请号: | 201010160729.7 | 申请日: | 2010-04-26 |
| 公开(公告)号: | CN102236638A | 公开(公告)日: | 2011-11-09 |
| 发明(设计)人: | 万鑫;刘正珍 | 申请(专利权)人: | 汉王科技股份有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100193 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 西文 单词 字符 大小写 修正 方法 装置 | ||
技术领域
本发明属于文字处理领域,涉及一种字符的修正方法和装置,特别涉及一种西文字符大小写的修正方法和装置。
背景技术
在西文字符的识别中,例如英文字符、德文字符等,由于字符集中部分字母在基线中位置不相同,而字形极其相似或是完全相同,所以无法通过字符识别的方式完全进行区分。通常的方式为在初步对西文字符进行识别后,再对该字符的基线位置进行判断,从而得到正确的识别结果,修正西文字符大小写。
通常有两种方式确定单词中的字符大小写:
方式一:根据语言的书写规则及语法规范处理字符。在文档中基本是句子首字母大写、专有名词首字母大写,因此如果单词中非首字母被识别为大写字母,则在识别结果中将其纠正为小写字母,但此方法会造成大写缩写单词以及大写字母为非首字母的情况下的字符识别错误,导致识别结果与原文实际不符,给用户带来很大的使用不便。
方式二:根据单词中已确定的字符统计基线,利用基线信息确定字母的大小写。此方法中,若是单词中字符的基线位置均不唯一,则无法统计单词的基线;若单词较长并且存在扭曲、倾斜等情况,则基线不能正确反映局部字符的实际基线位置,造成后处理过程中产生错误。
因此,需要一种适应性更强的单词后处理方法,能够有效地修正字符的大小写,判断任意字符组合的单词,并且不受单词行扭曲等因素影响,使单词的识别率大大提高。
发明内容
本发明所要解决的技术问题是提供一种西文字符大小写的修正方法和装置,通过字符在图像中的位置判断字符的基线属性,得到相邻字符的相对位置,并分段记录各字符所对应的基线在图像中的位置来确定字符的基线属性,进而对字符进行修正,最后输出识别结果。
本发明公开了一种西文单词中字符大小写的修正方法,包括以下步骤:
步骤1:获取目标文本的字符的识别结果和字符在图像中的位置;
步骤2:根据字符的识别结果和在图像中的位置判断字符的基线属性,经统计后确定单词的基线信息;
步骤3:根据单词的基线信息确定字符的基线属性,将字符的基线属性进行修正后输出识别结果。
所述步骤2、3中字符的基线属性根据字符集中字符的上下边界进行定义,记录字符与对应基线的位置关系。
所述步骤2包括以下步骤:
步骤21:根据字符的识别结果初步判断字符的基线属性;
步骤22:根据字符在图像中的位置对得到的字符的基线属性进行筛选;
步骤23:统计单词中筛选得到的各字符的基线属性,根据基线属性唯一的字符所对应的各基线在图像中的位置计算单词的基线信息。
所述步骤22中对得到的字符的基线属性进行筛选时,如果该字符的基线属性大于一个,根据相邻字符的相对位置去除不可能的基线属性,并将备选的基线属性进行组合,得到相邻字符的相对位置,判断字符的基线属性。
所述相邻字符的相对位置通过相邻字符上下边界的距离差值与设定的参考距离阈值大小关系确定。
所述参考距离阈值不大于单词图像高度的1/6。
所述步骤23中统计单词中各字符的基线属性时,若单词中存在多个具有 基线属性唯一的字符,则取各字符所对应的基线在图像中位置的平均值来计算单词的基线信息。
所述步骤23中统计单词中各字符的基线属性时,若单词中存在多个具有基线属性唯一的字符,则分段记录各字符所对应的基线在图像中的位置来计算单词的基线信息。
所述分段记录各字符所对应的基线在图像中的位置时,将各字符下边界对应纵坐标值相差小于参考距离阈值的一个或多个字符作为一字符串,统计该字符串对应的基线信息。
所述字符串对应的基线信息为各条基线对应的纵坐标和该字符串左右字符的索引。
所述步骤3中字符的基线属性个数大于一时,选取与该字符距离最近的字符串,字符的上下边界与字符串对应的基线信息误差最小时对应的基线属性则为该字符的基线属性,并根据字符的基线属性进行修正后输出识别结果。
本发明还公开了一种西文单词中字符大小写的修正装置,包括以下模块:
信息获取模块:获取目标文本的字符的识别结果和字符在图像中的位置;
基线统计模块:根据字符的识别结果和在图像中的位置判断字符的基线属性,经统计后确定单词的基线信息;
信息修正模块:根据单词的基线信息判断字符的基线属性,将字符的基线属性进行修正后输出识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于汉王科技股份有限公司,未经汉王科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010160729.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:成型“U”形弯的冲压模具
- 下一篇:一种室内足球鞋底





