[发明专利]文字行识别系统生成方法和装置，电子设备在审

申请号：	202011430379.1	申请日：	2020-12-09
公开（公告）号：	CN112541537A	公开（公告）日：	2021-03-23
发明（设计）人：	高大帅;李健;陈明;武卫东	申请（专利权）人：	北京捷通华声科技股份有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06K9/20
代理公司：	北京润泽恒知识产权代理有限公司 11319	代理人：	莎日娜
地址：	100193 北京市海淀区东北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文字识别系统生成方法装置电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文字行识别系统生成方法，其特征在于，所述方法包括：

使用预训练的第一识别模型对训练样本进行打分；

依据各所述打分，确定所划分的各分类；

依据所述训练样本，训练分类划分模型；

针对每个所述分类，分别依据所述分类对应的训练样本，对所述分类对应的第二识别模型进行训练。

其中，所述文字行识别系统包括：所述分类划分模型、训练完成的各所述第二识别模型。

2.根据权利要求1所述的方法，其特征在于，在所述针对每个所述分类，分别依据所述分类对应的训练样本，对所述分类对应的第二识别模型进行训练的步骤之后，所述方法还包括：

将预测样本输入所述分类划分模型中，得到所述预测样本对应的目标分类；

将所述预测样本输入所述目标分类对应的第二识别模型中，得到所述预测样本对应的文字行信息。

3.根据权利要求1所述的方法，其特征在于，在所述使用预训练的第一识别模型对训练样本进行打分的步骤之前，所述方法还包括：

确定第一预设数量的第一类型样本；

确定第二预设数量的第二类型样本；

从所述第一类型样本中提取第三预设数量的第一样本；

从所述第二类型样本中提取第四预设数量的第二样本；

将所述第一样本和所述第二样本作为所述训练样本，对所述第一识别模型进行训练；

将所述第一类型样本中除所述第一样本外的其他样本，以及所述第二类型样本中除所述第二样本外的其他样本，确定为测试样本。

4.根据权利要求1所述的方法，其特征在于，所述依据各所述打分，确定所划分的各分类的步骤，包括：

依据各所述打分，确定分类数量和各分类对应的分值区域；

针对每个所述训练样本，依据所述训练样本对应的打分以及所各分类对应的分值区域，确定所述训练样本所属的分类。

5.根据权利要求1所述的方法，其特征在于，所述第一类型样本为：拍摄得到的自然场景文字行，第二类型样本为扫描文字行。

6.一种文字行识别系统生成装置，其特征在于，所述装置包括：

第一模块，用于使用预训练的第一识别模型对训练样本进行打分；

第二模块，用于依据各所述打分，确定所划分的各分类；

第三模块，用于依据所述训练样本，训练分类划分模型；

第四模块，用于针对每个所述分类，分别依据所述分类对应的训练样本，对所述分类对应的第二识别模型进行训练。

其中，所述文字行识别系统包括：所述分类划分模型、训练完成的各所述第二识别模型。

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

第五模块，用于在所述第四模块针对每个所述分类，分别依据所述分类对应的训练样本，对所述分类对应的第二识别模型进行训练之后，将预测样本输入所述分类划分模型中，得到所述预测样本对应的目标分类；

第六模块，用于将所述预测样本输入所述目标分类对应的第二识别模型中，得到所述预测样本对应的文字行信息。

8.根据权利要求6所述的装置，其特征在于，所述装置还包括：

第七模块，用于在所述第一模块使用预训练的第一识别模型对训练样本进行打分之前，确定第一预设数量的第一类型样本；

第八模块，用于确定第二预设数量的第二类型样本；

第九模块，用于从所述第一类型样本中提取第三预设数量的第一样本；

第十模块，用于从所述第二类型样本中提取第四预设数量的第二样本；

第十一模块，用于将所述第一样本和所述第二样本作为所述训练样本，对所述第一识别模型进行训练；

第十二模块，用于将所述第一类型样本中除所述第一样本外的其他样本，以及所述第二类型样本中除所述第二样本外的其他样本，确定为测试样本。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京捷通华声科技股份有限公司，未经北京捷通华声科技股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011430379.1/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]文字行识别系统生成方法和装置，电子设备在审

专利文献下载