[发明专利]一种获得识别模型的方法及装置有效
申请号: | 201410472832.3 | 申请日: | 2014-09-16 |
公开(公告)号: | CN105488543B | 公开(公告)日: | 2019-07-09 |
发明(设计)人: | 吴嘉嘉;竺博;何婷婷;乔玉平;魏思;胡国平;胡郁;刘庆峰 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G06K9/68 | 分类号: | G06K9/68 |
代理公司: | 北京维澳专利代理有限公司 11252 | 代理人: | 王立民;逢京喜 |
地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 获得 识别 模型 方法 装置 | ||
本申请提供一种获得识别模型的方法及装置。一种获得识别模型的方法,包括:获得样本数据;对所述样本数据进行弹性形变和/或随机形变获得形变样本数据;利用所述样本数据及所述形变样本数据进行模型训练,获得识别模型。本方法通过自动生成形变样本数据,极大地减少了收集手写样本的人力成本,提高了手写识别系统的性能,进而提高了识别准确率。
技术领域
本申请涉及手写识别技术领域,尤其涉及一种获得识别模型的方法及装置。
背景技术
随着信息技术的迅猛发展以及智能触屏类的移动终端设备日益普及,新的智能人机交互应用日新月异。手写输入作为最常见、最主流的人机交互方式之一,其特点在于操作方便、识别正确率高,适用于各类人群,特别是文化程度不高、不能较好掌握拼音的人群。因此,手写输入方式得到了越来越多用户的青睐。
目前手写识别系统主要采用基于数据驱动的方法,通过大量采集真实的样本数据,利用样本数据进行模型训练获得手写识别模型,以实现字符的区分。显然,手写识别系统性能和样本数据密切相关,样本数据覆盖面越广、内容越丰富则系统性能越好。然而,样本数据的收集、标注往往需耗费较大的人力、财力。特别是少数民族语言的数据采集工作更是困难重重,如藏语、维吾尔语等少数民族的手写样本数据。显然,若训练样本数据较为匮乏,则手写识别系统容易产生过拟合问题,从而导致识别准确率较低。
发明内容
为解决上述技术问题,本申请实施例提供一种获得识别模型的方法及装置,能够有效增加样本数据,提高识别准确率。技术方案如下:
一方面,提供一种获得识别模型的方法,包括:
获得样本数据;
对所述样本数据进行弹性形变和/或随机形变获得形变样本数据;
利用所述样本数据及所述形变样本数据进行模型训练,获得识别模型。
进一步,所述对所述样本数据进行弹性形变获得形变样本数据包括:
在所述样本数据的作用区域内确定至少一个随机点;所述作用区域为所述样本数据所占据的区域;
计算所述随机点对所述作用区域内所述样本数据上的样本点的牵引力;
根据所述牵引力对所述作用区域内的所述样本点进行位置修正,获得形变样本点;
根据所述形变样本点确定形变样本数据。
进一步,所述在所述样本数据的作用区域内确定至少一个随机点,包括:
计算所述样本数据的长宽比;
根据所述长宽比将所述样本数据的作用区域划分为至少两个子区域;
在各所述子区域内分别确定一个随机点;
所述计算所述随机点对所述作用区域内所述样本数据上的样本点的牵引力,包括:
计算所述随机点对其所在的所述子区域内所述样本数据上的样本点的牵引力。
进一步,所述对所述样本数据进行随机形变获得形变样本数据包括:
对所述样本数据上的每个样本点依次生成单位随机向量;
对所述单位随机向量进行平滑处理和归一化处理;
根据处理后的所述单位随机向量分别对其对应的样本点进行修正,获得形变样本点;
根据所述形变样本点确定形变样本数据。
进一步,在对所述样本数据进行弹性形变和/或随机形变获得形变样本数据之后,还包括:
对所述形变样本数据进行筛选;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410472832.3/2.html,转载请声明来源钻瓜专利网。