[发明专利]文本识别方法、模型的训练方法及装置在审
| 申请号: | 202210198346.1 | 申请日: | 2022-03-01 |
| 公开(公告)号: | CN114663886A | 公开(公告)日: | 2022-06-24 |
| 发明(设计)人: | 王昆;余威 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06V30/148 | 分类号: | G06V30/148;G06V10/774 |
| 代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 马姣琴;臧建明 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 识别 方法 模型 训练 装置 | ||
本公开提供了一种文本识别方法、模型的训练方法及装置,涉及人工智能技术中的图像处理、深度学习以及自然语言理解。具体实现方案为:对获取到的待识别图像进行光学字符识别,得到待识别图像的初始的文字,对初始的文字进行分析处理,得到初始的文字的类别属性,若初始的文字的类别属性表征初始的文字为错误的文字,则对错误的文字进行纠错处理,得到用于纠正错误的文字的正确的文字,根据初始的文字和正确的文字,生成待识别图像的文本内容,避免了基于OCR识别技术造成的文字错误的弊端,提高了文本识别的准确性和可靠性的技术效果。
技术领域
本公开涉及人工智能技术中的图像处理、深度学习以及自然语言理解,尤其涉及一种文本识别方法、模型的训练方法及装置。
背景技术
光学字符识别(Optical Character Recognition,OCR)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。
在现有技术中,通常采用OCR识别技术实现对待识别图像中的文本内容的获取。
然而,OCR识别技术可能存在文字识别错误,从而导致获取到的文本内容的准确性偏低的技术问题。
发明内容
本公开提供了一种用于提高文本识别的准确性的文本识别方法、模型的训练方法及装置。
根据本公开的第一方面,提供了一种文本识别方法,包括:
对获取到的待识别图像进行光学字符识别,得到所述待识别图像的初始的文字;
对所述初始的文字进行分析处理,得到所述初始的文字的类别属性,若所述初始的文字的类别属性表征所述初始的文字为错误的文字,则对所述错误的文字进行纠错处理,得到用于纠正所述错误的文字的正确的文字;
根据所述初始的文字和所述正确的文字,生成所述待识别图像的文本内容。
根据本公开的第二方面,提供了一种模型的训练方法,包括:
获取第一样本数据集,其中,所述第一样本数据集中包括初始的兴趣点名称文本、以及对所述初始的兴趣点名称文本进行修改得到的变体的兴趣点名称文本,所述变体的兴趣点名称文本中至少包括一个错误的文字;
根据所述第一样本数据集训练得到初始化模型参数,并根据所述初始化模型参数训练得到文字位判别器,其中,所述文字位判别器用于对待识别图像的初始文字进行分析处理,得到所述初始的文字的类别属性。
根据本公开的第三方面,提供了一种文本识别装置,包括:
识别单元,用于对获取到的待识别图像进行光学字符识别,得到所述待识别图像的初始的文字;
分析单元,用于对所述初始的文字进行分析处理,得到所述初始的文字的类别属性;
纠错单元,用于若所述初始的文字的类别属性表征所述初始的文字为错误的文字,则对所述错误的文字进行纠错处理,得到用于纠正所述错误的文字的正确的文字;
生成单元,用于根据所述初始的文字和所述正确的文字,生成所述待识别图像的文本内容。
根据本公开的第四方面,提供了一种模型的训练装置,包括:
获取单元,用于获取第一样本数据集,其中,所述第一样本数据集中包括初始的兴趣点名称文本、以及对所述初始的兴趣点名称文本进行修改得到的变体的兴趣点名称文本,所述变体的兴趣点名称文本中至少包括一个错误的文字;
第一训练单元,用于根据所述第一样本数据集训练得到初始化模型参数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210198346.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种蒸汽烤箱
- 下一篇:模型训练及图像处理方法、介质、装置和计算设备





