[发明专利]一种自然场景文本检测方法及系统在审
| 申请号: | 201910267048.1 | 申请日: | 2019-04-03 |
| 公开(公告)号: | CN110097049A | 公开(公告)日: | 2019-08-06 |
| 发明(设计)人: | 韩琥;宋宇;崔元顺;山世光;陈熙霖 | 申请(专利权)人: | 中国科学院计算技术研究所;中科视拓(北京)科技有限公司 |
| 主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/62;G06N3/04 |
| 代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国;梁挥 |
| 地址: | 100080 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明提出一种自然场景文本检测方法及系统,包含两个神经网络模型:基于多层次语义特征融合的文本检测网络和基于注意力机制的检测筛选网络。文本检测网络是一个基于FCN的图像特征提取融合网络,该网络用于提取输入数据的多语义层次信息,并进行多尺度特征的充分融合,最后通过对融合的多尺度信息进行卷积操作,预测自然场景中的文本信息的位置和置信度。检测筛选网络是利用训练好的卷积循环神经网络对第一部分的卷积神经网络输出的初始检测结果进行判别评分从而过滤掉易与前景文字混淆的背景,从而进一步提升自然场景文本识别的准确率。 | ||
| 搜索关键词: | 文本检测 自然场景 网络 卷积 融合 筛选 卷积神经网络 神经网络模型 图像特征提取 循环神经网络 多尺度特征 注意力机制 语义 层次信息 初始检测 前景文字 融合网络 文本识别 文本信息 语义特征 多尺度 置信度 检测 准确率 过滤 混淆 输出 预测 | ||
【主权项】:
1.一种自然场景文本检测方法,其特征在于,包括:步骤1、获取包括多张训练图片的训练集,该训练图片均为自然场景且已被标记文字位置,构建包括特征提取网络和特征融合网络的深度特征融合网络;步骤2、通过该特征提取网络提取该训练图片的多尺度图像特征,将该多尺度图像特征输入该特征融合网络得到融合特征,并由该特征融合网络中最后一个卷积层确定该训练图像的文本区域,根据该文字位置、该文本区域和该文本区域内包括文本的置信度构建损失函数;步骤3、重新选取该训练图片,多次执行该步骤2以训练该深度特征融合网络,直到该损失函数收敛,保存该深度特征融合网络作为文本检测模型;步骤4、以该训练集训练卷积循环神经网络,训练完成后,通过修改该卷积循环神经网络的翻译层为二分类层,并将修改后的该卷积循环神经网络作为文本识别网络;步骤5、将待文字检测的自然场景图像送入该文本检测模型,得到初步文本区域,并通过该文本识别网络筛选该初步文本区域,将筛选结果作为文本检测结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所;中科视拓(北京)科技有限公司,未经中国科学院计算技术研究所;中科视拓(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910267048.1/,转载请声明来源钻瓜专利网。





