[发明专利]一种基于维语文字识别的训练数据生成系统及方法在审

申请号：	201811549818.3	申请日：	2018-12-18
公开（公告）号：	CN109670502A	公开（公告）日：	2019-04-23
发明（设计）人：	贾宇;沈宜;张家亮;董文杰	申请（专利权）人：	成都三零凯天通信实业有限公司
主分类号：	G06K9/32	分类号：	G06K9/32;G06K9/34;G06F17/22;G06F17/21
代理公司：	成都金英专利代理事务所(普通合伙) 51218	代理人：	袁英
地址：	610041 四川省成都市***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	训练数据场景生成生成模块生成系统文字识别背景库语料库字体库引擎生成数据输出引擎输入引擎特效处理跨平台字体语种图片
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于维语文字识别的训练数据生成系统，其特征在于：包括语料库模块、字体库模块、背景库模块和训练数据生成模块；所述语料库模块根据OCR特定场景生成对应的语料库，字体库模块根据OCR特定场景生成对应的字体库，背景库模块根据OCR特定场景生成对应的背景库，训练数据生成模块生成数据图片源，通过特效处理后生成OCR数据；

所述的训练数据生成模块包括：输入引擎、生成引擎、特效引擎和输出引擎。

2.一种基于维语文字识别的训练数据生成系统，其特征在于：所述的输入引擎包括背景模块、文本模块、字库模块和管理模块。

3.一种基于维语文字识别的训练数据生成系统，其特征在于：所述的生成引擎包括FreeType模块和Image模块。

4.一种基于维语文字识别的训练数据生成系统，其特征在于：所述的特效引擎包括变形模块、模糊模块、干扰模块和颜色模块。

5.一种基于维语文字识别的训练数据生成系统，其特征在于：所述的输出引擎包括文件管理模块、文本文件、图片文件、校验模块和第三方数据导入模块。

6.根据权利要求1~5任一所述的一种基于维语文字识别的训练数据生成系统生成训练数据方法，其特征在于，包括以下步骤：

S1：根据OCR特定场景生成对应的语料库；

S2：根据OCR特定场景生成对应的字体库；

S3：根据OCR特定场景生成对应的背景库；

S4：生成数据图片源，通过特效处理后生成OCR数据。

7.根据权利要求6所述的一种基于维语文字识别的训练数据生成方法，其特征在于：所述的步骤S1包括以下子步骤：

S11：使用爬虫、网络获取所述特定场景文本数据；