[发明专利]用于识别图像中的文本的方法和设备在审
| 申请号: | 201580080720.6 | 申请日: | 2015-06-12 |
| 公开(公告)号: | CN107636691A | 公开(公告)日: | 2018-01-26 |
| 发明(设计)人: | 汤晓鸥;黄伟林;乔宇;吕健勤;贺盼 | 申请(专利权)人: | 商汤集团有限公司 |
| 主分类号: | G06K9/18 | 分类号: | G06K9/18 |
| 代理公司: | 北京英赛嘉华知识产权代理有限责任公司11204 | 代理人: | 王达佐,王艳春 |
| 地址: | 中国香港*** | 国省代码: | 香港;81 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 识别 图像 中的 文本 方法 设备 | ||
1.一种用于识别图像中的文本的方法,包括:
用卷积神经网络(CNN)将所述图像编码为第一序列,其中所述第一序列是所述CNN的倒数第二个卷积层的输出;
用递归神经网络(RNN)将所述第一序列解码为第二序列,所述第二序列具有与所述第一序列相同的长度,并指示对应于所述第一序列中的每个分量的所有可能字符的估计概率;以及
将所述第二序列映射为去除了重复的标签和非字符标签的字串。
2.根据权利要求1所述的方法,其中用CNN将所述图像编码为第一序列包括:
用所述CNN对所述图像作为一个整体进行卷积,其中从所述CNN的所述倒数第二个卷积层获得的卷积的结果为所述第一序列。
3.根据权利要求1所述的方法,其中用CNN将所述图像编码为第一序列包括:
将滑动窗口应用于所述图像以将所述图像划分成大小相同的段;以及
用所述CNN来个别地和按顺序对所述段进行卷积,其中从所述CNN的所述倒数第二个卷积层获得的卷积的结果是形成所述第一序列的分量。
4.根据权利要求1所述的方法,在所述编码的步骤之前进一步包括:
将所述图像重新设置为具有预定大小。
5.根据权利要求4所述的方法,其中所述CNN已用具有所述预定大小的图像样本训练过,并且在所述CNN的最后一个层输出不同字符的36个类。
6.根据权利要求1所述的方法,其中所述CNN的所述倒数第二个卷积层的输出仅为一个神经元。
7.根据权利要求1所述的方法,其中所述RNN已用一组卷积序列和对应的字串训练过。
8.根据权利要求1所述的方法,其中所述CNN包括maxout CNN。
9.根据权利要求1所述的方法,其中所述RNN包括双向长短期记忆(LSTM)层和链结式时间分类(CTC)层,其中所述LSTM层形成所述第二序列,并且所述CTC层形成所述字串。
10.一种用于识别图像中的文本的设备,其包括:
卷积神经网络(CNN),将所述图像编码为第一序列,其中所述第一序列是所述CNN的倒数第二个卷积层的输出;以及
递归神经网络(RNN),将所述第一序列解码为第二序列,所述第二序列具有与所述第一序列相同的长度,并指示对应于所述第一序列中的每个分量的所有可能字符的估计概率;
其中所述RNN进一步将所述第二序列映射为去除了重复的标签和非字符标签的字串。
11.根据权利要求10所述的设备,其中所述CNN通过以下步骤将所述图像编码为第一序列:
用所述CNN对所述图像作为一个整体进行卷积,其中从所述CNN的所述倒数第二个卷积层获得的卷积的结果是所述第一序列。
12.根据权利要求10所述的设备,其中所述CNN通过以下步骤将所述图像编码为第一序列:
将滑动窗口应用于所述图像以将所述图像划分成大小相同的段;以及
用所述CNN来个别地和按顺序对所述段进行卷积,其中从所述CNN的所述倒数第二个卷积层获得的所述卷积的结果是形成所述第一序列的分量。
13.根据权利要求10所述的设备,其中所述图像在输入到所述CNN之前被重设为具有预定大小。
14.根据权利要求13所述的设备,其中所述CNN已用具有所述预定大小的图像样本训练过,并且在所述CNN的最后一个层处输出不同字符的36个类。
15.根据权利要求10所述的设备,其中来自所述CNN的所述倒数第二个卷积层的所述输出仅为一个神经元。
16.根据权利要求10所述的设备,其中所述RNN已用一组卷积序列和对应的字串训练过。
17.根据权利要求10所述的设备,其中所述CNN包括maxout CNN。
18.根据权利要求10所述的设备,其中所述RNN包括双向长短期记忆(LSTM)层和链结式时间分类(CTC)层,其中所述LSTM层形成所述第二序列,并且所述CTC层形成所述字串。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于商汤集团有限公司,未经商汤集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201580080720.6/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





