[发明专利]基于位置检测模型的图片分类方法及其相关设备在审

申请号：	202011310566.6	申请日：	2020-11-20
公开（公告）号：	CN112418206A	公开（公告）日：	2021-02-26
发明（设计）人：	谢达荣	申请（专利权）人：	平安普惠企业管理有限公司
主分类号：	G06K9/20	分类号：	G06K9/20;G06K9/34;G06K9/38;G06K9/62;G06N3/04;G06N3/08
代理公司：	深圳市世联合知识产权代理有限公司 44385	代理人：	汪琳琳
地址：	518000 广东省深圳市前海深港合作区前***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于位置检测模型图片分类方法及其相关设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例属于人工智能领域，应用于智慧医疗领域中，涉及一种基于位置检测模型的图片分类方法及其相关设备，训练后的位置检测模型、场景文字检测模型以及图片分类模型可存储于区块链中。本申请经过多模型分工的方式，分别训练不同的模型，包括位置检测模型、场景文字检测模型以及图片分类模型对图片进行识别，有效提升图片分类的准确率；通过生成的重叠文字图片和模糊文字图片训练图片分类模型，有效提升了图片分类模型对于图片分类的准确率和效率。

技术领域

本申请涉及人工智能技术领域，尤其涉及基于位置检测模型的图片分类方法及其相关设备。

背景技术

图片分类问题一直是深度学习领域一个重要的研究内容，随着人工智能的不断发展，计算机对图片的智能分类已经在各行各业中得到广泛的应用。

目前，各公司的大量数据单通常通过图片的形式上传至计算机网络进行分类，常用的方法包括OCR(Optical Character Recognition,光学字符识别)技术。但是数据单的种类繁杂，且许多时候以图片形式上传的数据单的分辨率较低，而OCR识别技术对于模糊的图片，图片倾斜等情况敏感度高，因此很难取得较高的分类准确率。此外，部分图片中存在字体打印重叠等问题，OCR对于重叠文字识别难度高，容易出现图片分类错误的情况。

发明内容

本申请实施例的目的在于提出一种基于位置检测模型的图片分类方法及其相关设备，有效提升了图片分类模型对于图片分类的准确率和效率。

为了解决上述技术问题，本申请实施例提供一种基于位置检测模型的图片分类方法，采用了如下所述的技术方案：

一种基于位置检测模型的图片分类方法，包括下述步骤：

接收用户终端发送的携带有数据单位置信息的多张标准数据单图片，并基于预设的角度多次平面旋转所述标准数据单图片，生成第一训练图片；

基于所述第一训练图片训练预设的位置检测模型，获得训练后的位置检测模型，其中，所述位置检测模型用于修正图片的方向；

将所述第一训练图片输入至所述训练后的位置检测模型中，获得方向修正图片；

对所述方向修正图片进行关键区域标注操作，得到携带有关键文字区域的第二训练图片，并基于所述第二训练图片训练预设的场景文字检测模型，获得训练后的场景文字检测模型；

将所述第二训练图片输入至所述训练后的场景文字检测模型中，获得目标关键文字区域，并基于所述目前关键文字区域生成文字图片；

基于所述文字图片和预设的分类标识生成重叠文字图片和模糊文字图片，并基于所述重叠文字图片和模糊文字图片训练预设的图片分类模型，获得训练后的图片分类模型；

接收待分类数据单图片，将所述待分类数据单图片依次经过所述训练后的位置检测模型、训练后的场景文字检测模型以及训练后的图片分类模型，获得所述待分类数据单图片的类别。

进一步的，所述基于所述目标关键文字区域生成文字图片的步骤包括：