[发明专利]一种基于改进的双注意力YOLOv7的场景藏文检测方法在审
| 申请号: | 202310098347.3 | 申请日: | 2023-02-10 |
| 公开(公告)号: | CN116246282A | 公开(公告)日: | 2023-06-09 |
| 发明(设计)人: | 才让当知;黄鹤鸣 | 申请(专利权)人: | 青海师范大学 |
| 主分类号: | G06V30/30 | 分类号: | G06V30/30;G06V30/41;G06N3/048;G06N3/08;G06N3/0464 |
| 代理公司: | 成都东恒知盛知识产权代理事务所(特殊普通合伙) 51304 | 代理人: | 何健雄 |
| 地址: | 810016 青*** | 国省代码: | 青海;63 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 改进 注意力 yolov7 场景 藏文 检测 方法 | ||
本发明公开了一种基于改进的双注意力YOLOv7的场景藏文检测方法,首先,在YOLOv7的主干网络下采样和颈部上采样之间引入背景抑制模块,用于学习每个通道的重要程度,在增强有用特征的同时抑制无用特征,有利于提升网络辨别前景和背景的能力;其次,在YOLOv7的检测头之前采用卷积注意力模块提取特征,有利于提高网络对文本区域的注意力。并且,为了提高小目标文本检测能力,本发明采用α‑IOU目标损失函数。这样得到的YOLOv7Dual‑attention在MSTD500测试集上对单类藏文场景文本检测时F1达到了84.51%,比基线模型YOLOv7提高了3.6%,优于其他对比的场景藏文文本检测方法。
技术领域
本发明涉及藏文检测技术领域,具体涉及一种基于改进的双注意力YOLOv7的场景藏文检测方法。
背景技术
在随着微博、抖音、快手以及今日头条等短视频行业的广泛崛起,短视频上互联网的传播非常广泛。也存在不少广告主利用新媒体短视传播违禁词,为了提高创作内容和构建安全的网络环境,可通过OCR进行自动识别,但在很多短视频平台缺少藏文检测和识别功能。例如,在抖音平台使用藏语或藏文默认会被认定你在传播不良信息,导致会被限流或者下架,严重的会被封号。因此,为了保证正确分析短视频视频内容和信息安全、提高用户的体验感,文字检测和识别技术能够自动帮助平台检测是否存在违禁词等信息,保证合理、有效地传播短视频。
检测作为藏文识别的前提,在视频文本、古籍文献和真实场景藏文识别中具有广泛的应用价值。目前藏文OCR系统已经相对成熟,这些系统主要通过投影、连通域以及滴水分割等算法提取藏文文本区域然后进行识别,在干净印刷体图像上检测藏文文本取得了很好的效果,但这些算法无法延伸到真实场景中。在真实自然场景下,图像中文本存在复杂背景和形状、颜色、字体等多样性的特点,甚至有不同程度的遮挡和模糊不清等情况,这给真实场景藏文文本检测带来了巨大的挑战。
虽然已有基于分割和组件连接的场景藏文检测方法,单类场景藏文检测F1最高达到了71%。但场景藏文检测任然存在很多漏检和错检的情况,并且基于分割和组件连接的方法检测速度较慢,场景藏文文本还有很大提升空间。
因此,亟需一种能同时兼顾场景藏文文本检测性能和速度的场景藏文检测方法。
发明内容
为解决现有技术中存在的问题,本发明提供了一种基于改进的双注意力YOLOv7的场景藏文检测方法,主要对YOLOv7的特征提取、IOU计算损失等模块进行了改进,改进能使模型更有效地提取局部文本区域的特征,从而提高检测场景文本的能力,解决了上述背景技术中提到的问题。
为实现上述目的,本发明提供如下技术方案:一种基于改进的双注意力YOLOv7的场景藏文检测方法,包括如下步骤:
S1、建立藏文场景文本数据集;
S2、构建改进的双注意力YOLOv7网络模型;
S3、将数据集中的图像数据作为输入,输入到YOLOv7网络模型中进行特征提取;
S4、将提取到的特征输入到不同尺度的检测头用来检测文本框;
S5、检测头输出对应的目标位置和类别。
优选的,在步骤S1中,所述数据集中包括有小目标、中目标、大目标文本,目标尺寸小于32×32像素的区域规定为小目标,在32×32像素和96×96像素之间的区域为中目标,尺寸大于96×96像素的区域规定为大目标;小目标、中目标、大目标文本的比例为1:2:3。
优选的,所述改进的双注意力YOLOv7网络模型具体是:在基础YOLOv7的主干网络下采样和颈部上采样之间引入背景抑制模块,用于学习每个通道的重要程度,增强有用特征的同时抑制无用特征;在YOLOv7颈部和检测头之间采用卷积注意力模块提取特征,包括通道和空间双注意力,提高网络对文本区域的注意力。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青海师范大学,未经青海师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310098347.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:二维材料的转移方法
- 下一篇:一种单气缸实现夹具定位销伸缩及翻转运动的结构





