[发明专利]文本识别方法及装置有效
申请号: | 201810004874.2 | 申请日: | 2018-01-03 |
公开(公告)号: | CN109993040B | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | 高立宁 | 申请(专利权)人: | 北京世纪好未来教育科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 北京北汇律师事务所 11711 | 代理人: | 郭群 |
地址: | 100086 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 识别 方法 装置 | ||
本发明实施例提供了一种文本识别方法及装置,其中,文本识别方法包括:获取待检测的文本图像,其中,所述文本图像中包含有多个字符的信息;对所述文本图像进行多尺度变换,获得多个不同尺寸的子文本图像;使用卷积神经网络模型对每个子文本图像进行文本检测,获得每个子文本图像中的每个字符对应的候选文本检测框;对同一个字符的所有子文本图像的多个候选文本检测框进行非极大值抑制NMS处理,并对处理后的候选文本检测框进行过滤,确定有效文本检测框;基于所述有效文本检测框,对所述文本图像进行文本识别,获得文本识别结果。通过本发明实施例,大大提高了对文本图像进行文本检测和识别的准确度。
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种文本识别方法及装置。
背景技术
随着计算机和互联网技术的发展,借助于计算机和网络辅助学习和教学已成为一种趋势。其中,拍照搜题逐渐成为该种学习和教学过程中,学生答疑的重要手段。
拍照搜题是指用户通过手机等设备拍摄题目图像,提交给学习平台,由学习平台根据拍照内容检索数据库并返回对应题目的题干和解析的过程,而对拍照内容进行文本检测则是拍照搜题过程中的关键技术之一。
现有的文本检测技术主要通过人工设计文本的特征,以文本特征提取为基础实现文本的检测,如MSER(Maximally Stable Extremal Regions,最大稳定极值区域)检测,SWT(Stroke Width Transform,笔画宽度转换)检测等方法。但是,现有的文本检测方法在提取文本特征的过程中,本质上是对信息做了压缩等,虽然这些方法对于图像质量清晰、背景中噪声干扰小等质量较好的图像具备良好的文本检测性能,但是对背景复杂、文本形态扭曲、模糊等质量较差的图像退化严重。
因此,如何对包含文本题目的图像尤其是质量较差的图像进行准确的文本检测和识别,成为亟待解决的问题。
发明内容
有鉴于此,本发明实施例提供了一种文本识别方案,以解决现有技术中,对包含文本题目的图像尤其是质量较差的图像进行文本检测准确度不高的问题。
根据本发明实施例的第一方面,提供了一种文本识别方法,包括:获取待检测的文本图像,其中,所述文本图像中包含有多个字符的信息;对所述文本图像进行多尺度变换,获得多个不同尺寸的子文本图像;使用卷积神经网络模型对每个子文本图像进行文本检测,获得每个子文本图像中的每个字符对应的候选文本检测框;对同一个字符的所有子文本图像的多个候选文本检测框进行非极大值抑制NMS处理,并对处理后的候选文本检测框进行过滤,确定有效文本检测框;基于所述有效文本检测框,对所述文本图像进行文本识别,获得文本识别结果。
根据本发明实施例的第二方面,还提供了一种文本识别装置,包括:第一获取模块,用于获取待检测的文本图像,其中,所述文本图像中包含有多个字符的信息;第二获取模块,用于对所述文本图像进行多尺度变换,获得多个不同尺寸的子文本图像;第三获取模块,用于使用卷积神经网络模型对每个子文本图像进行文本检测,获得每个子文本图像中的每个字符对应的候选文本检测框;确定模块,用于对同一个字符的所有子文本图像的多个候选文本检测框进行非极大值抑制NMS处理,并对处理后的候选文本检测框进行过滤,确定有效文本检测框;识别模块,用于基于所述有效文本检测框,对所述文本图像进行文本识别,获得文本识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京世纪好未来教育科技有限公司,未经北京世纪好未来教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810004874.2/2.html,转载请声明来源钻瓜专利网。