[发明专利]文字的识别方法、装置、存储介质、程序产品和电子设备在审
申请号: | 201711173890.6 | 申请日: | 2017-11-22 |
公开(公告)号: | CN108229469A | 公开(公告)日: | 2018-06-29 |
发明(设计)人: | 梁鼎 | 申请(专利权)人: | 北京市商汤科技开发有限公司 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/34;G06N3/04 |
代理公司: | 北京天健君律专利代理事务所(普通合伙) 11461 | 代理人: | 金丹;纪烈超 |
地址: | 100084 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文字识别 文字特征向量 图像 程序产品 存储介质 电子设备 过滤 人工智能领域 特征提取 整体识别 计算量 | ||
本发明实施例提供一种文字的识别方法、装置、存储介质、程序产品和电子设备,涉及人工智能领域。所述文字的识别方法包括:对待识别图像进行特征提取,获得所述待识别图像的第一文字识别区域的文字特征向量;并根据所述第一文字识别区域的文字特征向量对所述第一文字识别区域进行过滤,获得第二文字识别区域,所述第二文字识别区域为过滤掉空白符的文字识别区域;再根据所述第二文字识别区域的文字特征向量对所述待识别图像进行文字识别,获得所述待识别图像的文字识别结果。通过本发明实施例,减少了文字识别的计算量,从而提升了整体识别文字的速度。
技术领域
本发明实施例涉及人工智能领域,尤其涉及一种文字的识别方法、装置、存储介质、程序产品和电子设备。
背景技术
在基于连接时序分类(Connectionist temporal classification,以下简称CTC)的文字识别方法中,有一个步骤是使用全连接层将文字图像中的低维特征映射到高维空间中,并使用Softmax函数对映射到高维空间中的特征进行归一化操作,获得文字图像中文字的概率分布矩阵,从而完成文字图像中文字的分类解码。这个步骤的计算量与所属文字的字符的类别数,也就是文字识别的字符种类数线性相关。随着字符种类数增多,这个步骤的计算量也增大。例如,在中文的文字识别中,中文字符的种类数通常可以达到5000甚至2万以上,所述使用全连接层的步骤的时间花费占到了整体神经网络运行时间的绝大部分,从而大大降低了文字识别的运行速度。
发明内容
本发明实施例的目的在于,提供一种文字识别的技术方案。
根据本发明实施例的第一方面,提供了一种文字的识别方法。所述方法包括:对待识别图像进行特征提取,获得所述待识别图像的第一文字识别区域的文字特征向量;根据所述第一文字识别区域的文字特征向量对所述第一文字识别区域进行过滤,获得第二文字识别区域,所述第二文字识别区域为过滤掉空白符的文字识别区域;根据所述第二文字识别区域的文字特征向量对所述待识别图像进行文字识别,获得所述待识别图像的文字识别结果。
可选地,所述文字的识别方法通过神经网络模型实现,所述神经网络模型包括:特征提取层、连接在所述特征提取层输出端的过滤层以及连接在所述过滤层输出端的文字识别层。
可选地,所述对待识别图像进行特征提取,获得所述待识别图像的第一文字识别区域的文字特征向量,包括:通过所述特征提取层,对待识别图像进行特征提取,获得所述待识别图像的第一文字识别区域的文字特征向量;所述根据所述第一文字识别区域的文字特征向量对所述第一文字识别区域进行过滤,获得第二文字识别区域,包括:通过所述过滤层,根据所述第一文字识别区域的文字特征向量对所述第一文字识别区域进行过滤,获得第二文字识别区域;所述根据所述第二文字识别区域的文字特征向量对所述待识别图像进行文字识别,获得所述待识别图像的文字识别结果,包括:通过所述文字识别层,根据所述第二文字识别区域的文字特征向量对所述待识别图像进行文字识别,获得所述待识别图像的文字识别结果。
可选地,所述过滤层包括:第一全连接子层、第一计算子层以及过滤子层;所述第一全连接子层与所述特征提取层的输出端连接,所述第一全连接子层、所述第一计算子层以及所述过滤子层依次顺序连接;其中,通过所述过滤层,根据所述第一文字识别区域的文字特征向量对所述第一文字识别区域进行过滤,获得第二文字识别区域,包括:通过所述第一全连接子层,对所述第一文字识别区域的文字特征向量进行映射操作,获得所述第一文字识别区域是否含有文字的特征向量;通过所述第一计算子层,对所述第一文字识别区域是否含有文字的特征向量进行归一化操作,获得所述第一文字识别区域是否含有文字的概率;通过所述过滤子层,过滤出所述第一文字识别区域中含有文字的概率大于或等于文字阈值的第一文字识别区域,从而获得所述第二文字识别区域。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京市商汤科技开发有限公司,未经北京市商汤科技开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711173890.6/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序