[发明专利]一种针对竖排文本的检测方法及装置有效
申请号: | 202110588830.0 | 申请日: | 2021-05-28 |
公开(公告)号: | CN115410207B | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 贾云刚;李超;王勇;赵淳璐;梁睿琪;孙捷;高一骄;孙海亮 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心天津分中心;中国科学院信息工程研究所 |
主分类号: | G06V30/148 | 分类号: | G06V30/148;G06F40/289;G06F40/216 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 陈艳 |
地址: | 300199 天*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 竖排 文本 检测 方法 装置 | ||
本发明公开一种针对竖排文本的检测方法及装置,包括扫描待检测文本,确定换行符的位置,得到一个位置列表,并基于该位置列表,计算每行文字长度;截取连续t行中每行文字长度一致的文本,保留截取文本中的有效字符,得到保留文本;对保留文本进行分词,并根据得到第一分词结果,获取截取文本的初步检测结果;若初步检测结果判断截取文本为竖排文本,则将截取文本转换为二维的字符矩阵,并删除换行符,对该字符矩阵作转置,得到转置文本;对转置文本进行分词,并根据得到第二分词结果,获取截取文本的检测结果。本发明可确定竖排文字的区域,去除竖排文本中的干扰字符,并恢复成一般的横向文本,同时处理竖排文本中普遍存在的错别字现象。
技术领域
本发明涉及一种针对竖排文本的检测方法及装置,可检测文本中是否存在竖排文字,如果存在,则恢复正常横排文字顺序,属于自然语言处理领域。
背景技术
人们在工作生活中遇到的绝大多数文本内容都是自上而下、从左到右的横排文字,同时也存在一些特殊场景,文字并不以常见的横排方式排列,比如对联、商店或机构单位的广告牌等,在互联网、短信等通信文本内容中,竖排排放的文字也比较常见。
竖排文字对于人来说并不难处理,人类的视觉可以极好的处理文字位置的信息,文字的顺序可以很好的被恢复,竖排排放的文字并不会对人类的阅读造成过多的困难。但对于计算机并不如此,文本数据被顺序排放存储,非顺序横排的文字难以处理,中文就变成独立的汉字而不是词汇,英文等其他语言则会变成独立的字母而不是单词,而对词汇的识别是许多自然语言处理的基础,文字的顺序错误使得文本匹配和文本理解等自动化的文本处理工作无从下手。人类视觉和计算机处理文字方式的区别也有一些常见的应用,比如用于人机识别,或者被用于某些场景下的敏感内容反监测。
对于竖排文字的识别和顺序恢复的研究多集中于OCR(optical characterrecognition)文字识别领域,从图片中自动识别出竖排文字。市场上也有多种成熟软件可以很好的实现这个功能,比如百度文字识别、腾讯云OCR等。光学字符识别技术已经得到了广泛应用,比如用于识别发票等纸质材料上的关键字样,或者从一般图片中识别文本信息。目前解决竖排文字识别的一种比较普遍的思路是基于旋转的框架,对自然场景中任意方向的文字进行检测辨认。使用深度神经网络生成倾斜的框架,同时还带有图像旋转角度的信息。之后,这些信息会适应边界框,从而能更精确地在不同方向上确定文本区域。
但基于图像信息的文本方向识别需要较高的计算复杂度,如果需要把文本信息先转化为图像再识别为文本信息也显得过于的冗余且低效率,同时,如果竖排文字之间没有明显的分隔符号或其他分割标志来帮助确定文字排列方向,基于图像信息的文本方向识别也会失效。综上所述,基于图像的竖排文字的监测识别计算复杂度比较高,难以用于处理文本形式的数据。
发明内容
为解决上述问题,本发明公开一种针对竖排文本的检测方法及装置,一方面,基于文本中的结构标志和文本的分词结果,判断文本中是否存在竖排文字,以及确定竖排文字的区域;另一方面,基于竖排文字的区域监测结果,恢复竖排文字的正常文本顺序。该方法需要依赖的算法基础主要包括中文自动分词(Chinese word segmentation)技术,结合其他基于统计和规则的方法,实现准确度高、计算复杂度低的竖排文字监测和顺序恢复功能。
为达到上述目的,本发明采用具体技术方案是:
一种针对竖排文本的检测方法,其步骤包括:
1)扫描待检测文本,确定换行符的位置,得到一个位置列表,并基于该位置列表,计算每行文字长度;
2)截取连续t行中每行文字长度一致的文本,保留截取文本中的有效字符,得到保留文本,其中t≥3;
3)对保留文本进行分词,并根据得到第一分词结果,获取截取文本的初步检测结果;
4)若初步检测结果判断截取文本为竖排文本,则将截取文本转换为二维的字符矩阵,并删除换行符,对该字符矩阵作转置,得到转置文本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心天津分中心;中国科学院信息工程研究所,未经国家计算机网络与信息安全管理中心天津分中心;中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110588830.0/2.html,转载请声明来源钻瓜专利网。