[发明专利]一种多场景多字体中文文字检测识别方法在审
申请号: | 201910700482.4 | 申请日: | 2019-07-31 |
公开(公告)号: | CN110516554A | 公开(公告)日: | 2019-11-29 |
发明(设计)人: | 吕岱霖;李智星;孙玲玲 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32;G06K9/34;G06K9/62 |
代理公司: | 33240 杭州君度专利代理事务所(特殊普通合伙) | 代理人: | 杨舟涛<国际申请>=<国际公布>=<进入 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种多场景多字体中文文字检测识别方法,本发明采用EAST和CRNN深度学习网络,根据图像数据的尺度,方向进行分类训练EAST文字定位网络模型和CRNN文字识别网络模型,通过两种网络结合,对多场景下多种中文文字检测识别,取得了理想的效果。一方面该检测方法能提高多场景下文字识别及录入的工作效率,大大降低人力成本;另一方面,在全球化、电子化的今天,利用多场景下多种中文文字的检测识别方法及系统,能实时、准确、自动地识别出非楷书书法文字,对于记录整理书法艺术和传播书法背后的中国文化有着重要的社会价值。 | ||
搜索关键词: | 中文文字 场景 检测 文字识别 书法 定位网络 工作效率 人力成本 书法艺术 图像数据 网络结合 网络模型 电子化 自动地 录入 字体 尺度 背后 分类 记录 传播 网络 学习 | ||
【主权项】:
1.一种多场景多字体中文文字检测识别方法,其特征在于,包括如下步骤:/n步骤一:准备数据集,标签包括文字图片的区域位置、区域文字信息;/n步骤二:使用色彩恒常化预处理算法,随机对训练集图像的50%进行处理;/n步骤三:在训练时对不同尺度和不同方向的数据做了分类,根据不同方向将数据集分为三类,根据不同尺寸将数据集分为两类,以便之后分类训练使用;/n步骤四:根据步骤三中的分类数据集,使用深度神经网络RSTD训练出六个不同的模型,并对模型进行评估;每个模型的输入是一张图片,输出是检测出的文字四边形区域坐标:以原图左上角为零点,X1、Y1为文本框左上角坐标,X2、Y2为文本框右上角坐标,X3、Y3为文本框右下角坐标,X4、Y4为文本框左下角坐标;/n步骤五:根据训练时文字定位标签,即文本框的坐标,对图片进行裁剪,同时使用图像锐化算法以30%概率随机处理数据图像;将剪裁后的图像根据横竖标准分为两类,若裁剪图像中文字为纵向排列,则对图像行逆时针90°旋转操作;/n步骤六:根据步骤五的分类数据集,使用深度神经网络CRNN训练出两个不同的横纵文字识别模型,并对模型进行评估;输入内容为文字定位区域,输出内容为对应文字信息;/n步骤七:对于待识别图片,首先按照步骤三将待识别图片进行分类,然后根据分类情况调用步骤四中对应的定位模型进行预测,得到待识别图片的文字定位区域坐标,并对坐标区域进行裁剪,将裁剪图像进行横纵向分类和旋转校正;/n步骤八:对于校正后图像,根据类别调用文字识别模型,识别出对应的文字信息,并返回识别信息;同时,为了解决大量复杂环境下文字密集排布导致框选信息重叠的问题,在识别前,我们对图像进行了稀疏处理,待检测完成后进行等比例还原,保证了密集文字框选的准确性。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910700482.4/,转载请声明来源钻瓜专利网。