[发明专利]字符识别与识别模型训练方法、装置和系统及存储介质在审
| 申请号: | 201711447862.9 | 申请日: | 2017-12-27 |
| 公开(公告)号: | CN108875722A | 公开(公告)日: | 2018-11-23 |
| 发明(设计)人: | 贺欣;周昕宇;郭嘉丞 | 申请(专利权)人: | 北京旷视科技有限公司 |
| 主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/34;G06N3/04 |
| 代理公司: | 北京睿邦知识产权代理事务所(普通合伙) 11481 | 代理人: | 徐丁峰;戴亚南 |
| 地址: | 100190 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 样本图像 字符识别 字符区域 模型训练 预测 标注 存储介质 输入字符识别 图像信息输入 累积误差 区域定位 网络 | ||
1.一种字符识别模型训练方法,包括:
获取至少一个样本图像和所述至少一个样本图像各自对应的标注数据,每个样本图像所对应的标注数据用于指示该样本图像的实际字符区域的位置以及所述实际字符区域中的实际字符;
对于所述至少一个样本图像中的每个样本图像,
将该样本图像输入字符识别模型中的区域定位网络,以确定该样本图像的预测字符区域的位置;
将所述预测字符区域的位置对应的图像信息输入所述字符识别模型中的字符识别网络,以识别所述预测字符区域中的预测字符;以及
至少利用所述至少一个样本图像各自对应的标注数据和所述预测字符对所述字符识别模型进行训练。
2.如权利要求1所述的方法,其中,所述至少利用所述至少一个样本图像各自对应的标注数据和所述预测字符对所述字符识别模型进行训练包括:
基于所述至少一个样本图像各自对应的预测字符区域和实际字符区域计算第一损失函数;
基于所述至少一个样本图像各自对应的预测字符和实际字符计算第二损失函数;
基于所述第一损失函数和所述第二损失函数计算总损失函数;以及
调整所述字符识别模型中的参数以优化所述损失函数,以获得经训练的所述字符识别模型。
3.如权利要求2所述的方法,其中,
所述第一损失函数L1根据以下公式计算:
所述第二损失函数L2根据以下公式计算:
所述总损失函数L根据以下公式计算:
L=α*L1+L2;
其中,α为预设权重参数,M为所述至少一个样本图像的数目,n为字符区域的顶点个数,为第i个样本图像的实际字符区域中的第j个顶点的实际坐标值,为第i个样本图像的预测字符区域中的第j个顶点的预测坐标值,K、C分别为字符序列长度和字符类别数,为第i个样本图像的实际字符中的第k个字符属于第c个类别的实际概率值,为第i个样本图像的预测字符中的第k个字符属于第c个类别的预测概率值。
4.如权利要求1所述的方法,其中,所述获取至少一个样本图像包括:
获取至少一个初始图像;以及
将所述至少一个初始图像分别缩放到标准尺寸,以获得所述至少一个样本图像。
5.如权利要求1所述的方法,其中,所述区域定位网络包括空间变换网络,且/或所述字符识别网络包括卷积神经网络和循环神经网络。
6.如权利要求5所述的方法,其中,所述循环神经网络是结合注意力机制的网络。
7.如权利要求5所述的方法,其中,所述对于所述至少一个样本图像中的每个样本图像,将所述预测字符区域的位置对应的图像信息输入所述字符识别模型中的字符识别网络,以识别所述预测字符区域中的预测字符包括:
对于所述至少一个样本图像中的每个样本图像,
将该样本图像的预测字符区域的位置对应的图像信息输入所述卷积神经网络,以提取该样本图像的预测字符区域的图像特征;
将该样本图像的预测字符区域的图像特征输入所述循环神经网络,以获得该样本图像的预测字符的概率矩阵;以及
根据所述概率矩阵确定该样本图像的预测字符。
8.一种字符识别方法,包括:
获取待识别图像;以及
利用如权利要求1至7任一项所述的字符识别模型训练方法训练获得的所述字符识别模型处理所述待识别图像,以识别所述待识别图像中的待识别字符。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京旷视科技有限公司,未经北京旷视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711447862.9/1.html,转载请声明来源钻瓜专利网。





