[发明专利]基于特征的文本检测方法及装置在审
申请号: | 202110262507.4 | 申请日: | 2021-03-10 |
公开(公告)号: | CN113065548A | 公开(公告)日: | 2021-07-02 |
发明(设计)人: | 刘义江;李云超;姜琳琳;吴彦巧;姜敬;檀小亚;师孜晗;陈蕾;侯栋梁;池建昆;范辉;阎鹏飞;魏明磊;辛锐;陈曦;杨青;沈静文 | 申请(专利权)人: | 国网河北省电力有限公司;国网河北省电力有限公司雄安新区供电公司 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/34;G06K9/62;G06K9/00;G06N3/04 |
代理公司: | 石家庄新世纪专利商标事务所有限公司 13100 | 代理人: | 呼春辉 |
地址: | 050022 *** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 特征 文本 检测 方法 装置 | ||
本发明公开了基于特征的文本检测方法及装置,涉及自然场景下文本检测技术领域;方法包括S1语义分割,通过第一神经网络从图片中获取含有全局特征的第一特征图;S2特征融合,获取到相同大小的如下特征图,第二特征图为带有检测需要信息的感兴趣区域,第三特征图为带有掩码需要信息的感兴趣区域,将第一和第二特征图融合并获得第四特征图,将第一和第三特征图融合并获得第五特征图;S3检测,对第四特征图进行类别预测和边框精修并获取水平矩形框;S4掩码,对第五特征图卷积操作并获取相应的掩码图;装置包括语义分割模块、检测模块、掩码模块和特征融合模块共四个程序模块;其通过步骤S1至步骤S4等,实现了自然场景下的通用文本检测。
技术领域
本发明涉及自然场景下文本检测技术领域,尤其涉及一种基于特征的文本检测方法及装置。
背景技术
通用文本检测在计算机视觉占有重要的位置,如自动驾驶,智能导航等领域内具有非常重要的作用,虽然现在已经有部分商业应用,但是自然场景下的文本识别往往更具有难度,相比扫描图片,自然场景下的图片往往光线条件更差,背景更嘈杂,同时存在文字部分弯曲,透视,模糊等现象,这导致了目前的主流算法在复杂环境下的表现得不到保证。尤其是当有遮挡,模糊等情况存在时,目前主流的方法由于不会考虑到文本的全局信息,存在漏检,误检的可能性。
针对文本检测问题,现有的基于深度学习的方法主要分为基于字符的检测算法和基于单词的检测算法,其中,基于字符的检测算法是利用事先设计好的字符检测器来检测出图片当中存在的字符,然后根据先验知识将字符连接成单词或者文本行,这类方法的思路比较简单,实现部署也相对容易,然而这种方法因为要生成大量的字符候选框并且要合并,比较耗时。相比之下,基于单词级别的检测算法直接检测单词,会更高效和简单,但这种方法通常无法有效地检测具有任意形状的文本。
为了解决这个问题,一些基于单词的方法进一步应用实例分割来进行文本检测,解决了任意形状文本的检测问题,同时针对复杂场景诸如弯曲,透视等具有更高的鲁棒性。但是现有的基于实例分割的方法仍然有两个主要的局限性。
一是,这些方法只基于单个感兴趣区域(RoI)检测文本,而不考虑全局上下文,因此它们倾向于基于有限的视觉信息产生不准确的检测结果。
二是,现有的方法没有对不同层次的单词语义进行建模,产生假阳性的可能性增大。
现有技术问题及思考:
如何解决自然场景下的通用文本检测的技术问题。
发明内容
本发明所要解决的技术问题是提供一种基于特征的文本检测方法及装置,其通过步骤S1至步骤S4等,实现了自然场景下的通用文本检测。
为解决上述技术问题,本发明所采取的技术方案是:一种基于特征的文本检测方法,基于依次连接的第一神经网络和区域生成网络,所述第一神经网络包括以基础网络去掉最后的全连接层后接特征金字塔网络,包括如下步骤,S1语义分割,处理器从存储器获取图片,通过第一神经网络从图片中获取含有全局特征的第一特征图;S2特征融合,处理器获取到经第一神经网络和区域生成网络形成的感兴趣区域、对齐感兴趣区域并获得相同大小的第二特征图和第三特征图,第二特征图为带有检测需要信息的感兴趣区域,第三特征图为带有掩码需要信息的感兴趣区域,处理器将第一特征图与第二特征图融合并获得通道信息融合后的第四特征图,处理器将第一特征图与第三特征图融合并获得通道信息融合后的第五特征图;S3检测,处理器对第四特征图进行类别预测和边框精修并获取水平矩形框;S4掩码,处理器对第五特征图卷积操作并获取相应的掩码图。
进一步的技术方案在于:在步骤S1中,处理器通过第一神经网络从图片中获取全局的分割图;在步骤S3中,处理器对第四特征图进行类别预测和边框精修并获取感兴趣区域的二分类信息和边框回归信息;在步骤S4中,处理器对第五特征图卷积操作并获取相应的局部分割图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网河北省电力有限公司;国网河北省电力有限公司雄安新区供电公司,未经国网河北省电力有限公司;国网河北省电力有限公司雄安新区供电公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110262507.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种过滤熔盐的方法和系统
- 下一篇:音乐控制方法、设备及可读存储介质