[发明专利]一种自然场景文本检测方法及系统在审
| 申请号: | 201910267048.1 | 申请日: | 2019-04-03 |
| 公开(公告)号: | CN110097049A | 公开(公告)日: | 2019-08-06 |
| 发明(设计)人: | 韩琥;宋宇;崔元顺;山世光;陈熙霖 | 申请(专利权)人: | 中国科学院计算技术研究所;中科视拓(北京)科技有限公司 |
| 主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/62;G06N3/04 |
| 代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国;梁挥 |
| 地址: | 100080 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本检测 自然场景 网络 卷积 融合 筛选 卷积神经网络 神经网络模型 图像特征提取 循环神经网络 多尺度特征 注意力机制 语义 层次信息 初始检测 前景文字 融合网络 文本识别 文本信息 语义特征 多尺度 置信度 检测 准确率 过滤 混淆 输出 预测 | ||
1.一种自然场景文本检测方法,其特征在于,包括:
步骤1、获取包括多张训练图片的训练集,该训练图片均为自然场景且已被标记文字位置,构建包括特征提取网络和特征融合网络的深度特征融合网络;
步骤2、通过该特征提取网络提取该训练图片的多尺度图像特征,将该多尺度图像特征输入该特征融合网络得到融合特征,并由该特征融合网络中最后一个卷积层确定该训练图像的文本区域,根据该文字位置、该文本区域和该文本区域内包括文本的置信度构建损失函数;
步骤3、重新选取该训练图片,多次执行该步骤2以训练该深度特征融合网络,直到该损失函数收敛,保存该深度特征融合网络作为文本检测模型;
步骤4、以该训练集训练卷积循环神经网络,训练完成后,通过修改该卷积循环神经网络的翻译层为二分类层,并将修改后的该卷积循环神经网络作为文本识别网络;
步骤5、将待文字检测的自然场景图像送入该文本检测模型,得到初步文本区域,并通过该文本识别网络筛选该初步文本区域,将筛选结果作为文本检测结果。
2.如权利要求1所述的自然场景文本检测方法,其特征在于,该卷积循环神经网络包括:卷积层、编码层、注意力层、解码层和翻译层;
通过该卷积层提取该训练图片的卷积特征图;
通过该编码层将该卷积特征图整合为序列特征并进行编码;
该注意力层根据序列信息和编码结果重新加权整合送入该解码层进行解码,将解码后的信息送入该翻译层翻译为目标文本。
3.如权利要求2所述的自然场景文本检测方法,其特征在于,使用联结时间的分类损失函数训练该卷积循环神经网络,直到该联结时间的分类损失函数收敛,训练完成;
lossctc=CTCLoss(predict,labels)
其中,CTCLoss为联结时间的分类损失函数,predict为该卷积循环神经网络最后一层的预测概率输出,labels为输入训练图片的文本内容标签。
4.如权利要求1所述的自然场景文本检测方法,其特征在于,步骤2中该损失函数包括Dice Loss损失函数和IoU Loss损失函数
其中,Dice Loss损失函数用于监督文本区域分类概率的预测:
其中P和G分别对应图像的文本预测置信度的真实的置信度,⊙代表哈达玛积;
IoU Loss损失函数用于监督文本区域位置的预测:
其中Rp和Rg分别代表预测的文本区域坐标和实际的文本区域坐标,θp和θg分别代表预测的文本区域的角度和实际的文本区域的角度。
5.如权利要求1所述的自然场景文本检测方法,其特征在于,步骤5中该文本识别网络筛选该初步文本区域的过程为:
该文本识别网络的卷积层部分从该初步文本区域中提取卷积特征图作为有效信息,将该有效信息按照预设顺序整合为序列特征送入该初步文本区域中编码层进行编码,得到编码信息,该初步文本区域中注意力层根据该预设顺序加权整合该编码信息后送入解码层,将解码后的信息送入该二分类层,判断该初步文本区域内是否具有文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所;中科视拓(北京)科技有限公司,未经中国科学院计算技术研究所;中科视拓(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910267048.1/1.html,转载请声明来源钻瓜专利网。





