[发明专利]基于Faster R-CNN的自然场景文本检测算法在审
申请号: | 202210275327.4 | 申请日: | 2022-04-14 |
公开(公告)号: | CN114648753A | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 李斌;张信杰;尹芳 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V10/25;G06V10/46;G06V10/764;G06V10/80;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150080 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 faster cnn 自然 场景 文本 检测 算法 | ||
1.基于Faster R-CNN的自然场景文本检测算法,其特征包括以下步骤:
步骤1:特征提取阶段:使用Resnet-101网络作为骨干网络,并引用改进的Inception模块;
步骤2:目标检测阶段:融合无锚框思想对RPN进行改进,将传统的基于区域预测的RPN结构改成基于点预测的anchor-free RPN,使模型能够应对场景文本多方向的特点;
步骤3:损失函数阶段:使用了focal loss取代传统的softmax损失函数,进一步提高模型精度;
步骤4:基于Faster R-CNN的自然场景文本检测模型的构建。
2.根据权利要求1所述的基于Faster R-CNN的自然场景文本检测算法,其特征在于,所述步骤1中,引入Resnet-101作为骨干网络,结合特征金字塔来提取特征图;同时在融合不同尺度的特征图后面添加Inception模块通过叠加更多卷积操作来提取更为丰富的特征向量,从而使最后的分类结果更加准确。
3.根据权利要求1所述的基于Faster R-CNN的自然场景文本检测算法,其特征在于,所述步骤2中,提取到四层特征之后,在其后面分别连接四个不同尺度的检测模块,与区域生成网络结构类似,每个检测模块都可以看作是一个滑动窗口检测器,在每一层特征金字塔结构上使用一个子网络对每个3×3的滑动窗口进行文本/非文本分类和边界框回归。
4.根据权利要求1所述的基于Faster R-CNN的自然场景文本检测算法,其特征在于,所述步骤3中,引入文本分类损失Lc,预测框回归损失Lr,λc和λr为平衡参数,具体如下:L=λcLc+λcLc,其中回归损失函数使用Smooth L1损失,即则回归损失函数计算公式为Lr(t,t*)=Smooth L1(t,t*)=∑i=1,2,3,4Smooth L1(Δxi)+Smooth L1(Δyi),其中t和t*分别表示从P到G的归一化之后的8维坐标预测值和真实值,深度特征提取过程中,首先将图像输入残差网络提取卷积特征得到Dconv×Hconv×Wconv的特征图,然后将特征图视为一列特征向量序列,其长度与特征图的宽度Wconv相等,序列中每个向量的维度等于特征图的高度乘以深度Dconv×Hconv,根据卷积神经网络特征的局部性,我们可以将整张输入图片视为一个个竖条型区域的组合,按照从左到右的顺序排列,特征向量序列与竖条型区域逐个对应,即特征序列按照从左到右的顺序描述了输入图像的一个个局部区域,为了提高特征的描述能力和上下文关联性,我们在卷积神经网络上叠加一个双向长短期记忆网络,同时从两个方向(从左向右和从右向左)提取空间依赖关系,分析长距离相关性,使得到的特向量包含更为丰富的上下文信息,双向长短期记忆网络的输出是一个新的特征序列,表示为h=[h1,...hL],L=Wconv。
5.根据权利要求1所述的基于Faster R-CNN的自然场景文本检测算法,其特征在于,所述步骤4中,在训练和测试阶段,利用Resnet-101提取特征图,利用Faster R-CNN算法针对目标文本进行检测,确定识别模块的参数,然后利用测试集进行功能验证。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210275327.4/1.html,转载请声明来源钻瓜专利网。