[发明专利]文本识别方法及装置在审
申请号: | 202110220330.1 | 申请日: | 2021-02-26 |
公开(公告)号: | CN112784841A | 公开(公告)日: | 2021-05-11 |
发明(设计)人: | 蔡晓聪;侯军;伊帅 | 申请(专利权)人: | 北京市商汤科技开发有限公司 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 靳玫 |
地址: | 100080 北京市海淀区北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 识别 方法 装置 | ||
本公开涉及计算机视觉技术领域,具体提供了一种文本识别方法及装置。文本识别方法包括:对文本图像进行特征提取,得到第一特征序列;第一特征序列包括多个特征切片,特征切片表示待识别文本的特征向量;基于第一特征序列的多个特征切片之间的上下文信息,对第一特征序列进行处理,得到第二特征序列;根据第二特征序列,确定第二特征序列中各个特征切片的注意力权值;基于第二特征序列和注意力权值,得到待识别文本的识别结果。本公开方法提高文本识别精度。
技术领域
本公开涉及计算机视觉技术领域,具体涉及一种文本识别方法及装置。
背景技术
场景文本识别是计算机视觉以及智能视频分析领域的重要问题之一,其在众多场景均有广泛的应用,例如车牌识别、文档文本行识别、自然场景文字识别等。对于场景文本识别,如何提高识别精度是重要研究方向。
发明内容
为提高场景文本识别的精度,本公开实施方式提供了一种文本识别方法及装置。
第一方面,本公开实施方式提供了一种文本识别方法,包括:
对文本图像进行特征提取,得到第一特征序列;所述第一特征序列包括多个特征切片,所述特征切片表示待识别文本的特征向量;
基于所述第一特征序列的多个特征切片之间的上下文信息,对所述第一特征序列进行处理,得到第二特征序列;
根据所述第二特征序列,确定所述第二特征序列中各个所述特征切片的注意力权值;
基于所述第二特征序列和所述注意力权值,得到所述待识别文本的识别结果。
在一些实施方式中,所述对文本图像进行特征提取,得到第一特征序列,包括:
对所述文本图像进行卷积处理,得到所述文本图像的特征图;
基于所述特征图处理得到所述第一特征序列。
在一些实施方式中,所述基于所述第一特征序列的多个特征切片之间的上下文信息,对所述第一特征序列进行处理,得到第二特征序列,包括:
对所述第一特征序列进行空洞卷积处理,得到所述第二特征序列。
在一些实施方式中,所述基于所述第二特征序列和所述注意力权值,得到所述待识别文本的识别结果,包括:
基于所述第二特征序列和所述注意力权值,得到各所述特征切片的分类结果;
对各所述特征切片的所述分类结果进行解析处理,得到所述待识别文本的所述识别结果。
在一些实施方式中,在所述对文本图像进行特征提取,得到第一特征序列之前,所述方法还包括:
获取场景图像,并由所述场景图像中检测得到至少一个所述文本图像。
在一些实施方式中,所述场景图像包括车辆,所述由所述场景图像中检测得到至少一个所述文本图像,包括:
由所述场景图像中检测得到至少一个车牌图像,作为所述文本图像。
在一些实施方式中,所述注意力权值包括以下中至少之一:
空间注意力权值、通道注意力权值以及混合注意力权值。
在一些实施方式中,所述对文本图像进行特征提取,得到第一特征序列,包括:
通过特征提取网络对所述文本图像进行特征提取,得到所述第一特征序列;
所述基于所述第一特征序列的多个特征切片之间的上下文信息,对所述第一特征序列进行处理,得到第二特征序列,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京市商汤科技开发有限公司,未经北京市商汤科技开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110220330.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:转子组件、压缩机及空调
- 下一篇:转子组件、压缩机以及空调设备