[发明专利]应用于OCR的文本识别方法及AI系统有效

专利信息
申请号: 202310042728.X 申请日: 2023-01-28
公开(公告)号: CN115828307B 公开(公告)日: 2023-05-23
发明(设计)人: 请求不公布姓名 申请(专利权)人: 广州佰锐网络科技有限公司
主分类号: G06F21/62 分类号: G06F21/62;G06F40/284;G06F18/27;G06V30/26
代理公司: 广州博联知识产权代理有限公司 44663 代理人: 马天鹰;王洪江
地址: 510630 广东省广州市天河*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 应用于 ocr 文本 识别 方法 ai 系统
【说明书】:

发明涉及文本识别技术领域,涉及一种应用于OCR的文本识别方法及AI系统。本发明通过将拟优化业务文本大数据整理成多组目标业务文本集,通过多组目标业务文本集尽可能准确、完整地输出拟优化业务文本大数据的文本内容,然后利用OCR算法对拟优化业务文本大数据的文本内容进行识别处理;本发明能够快速的区分是否是文档,过滤非文档,从而避免了对所有的图片都进行文本检测和文本识别,提升通用文档OCR的识别速度;针对性进行文本检测和文本识别的训练,提升识别准确率,从而使得应用于OCR的文本识别速度快,识别准确率高,支持多平台多终端的使用。

技术领域

本发明涉及文本识别技术领域,特别涉及一种应用于OCR的文本识别方法及AI系统。

背景技术

OCR(optical character recognition)文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程。随着互联网的发展,图像以及视频的产生、传递速度大大加快。图像文字中包含的丰富的语义信息,也在人机交互中扮演着重要角色。在很多公司业务中,有很多需要对图片进行识别的需求。在一些业务办理流程中,为了保证客户办理业务准确无误,往往需要对客户上传的一些文档进行审核。人工的方式需要花费大量的时间以及人力成本,且准确率不高。通用文档识别系统可以减少工作人员参与且极大的降低处理时长。现目前,基于OCR技术的文本识别应用越来越广泛,能够将各类纸质文件转换为电子文件以供使用。但是在实际应用时,如果涉及到一些较为敏感的信息或者较为私密的信息,传统技术难以有效实现对这些信息的保护。

发明内容

为改善相关技术中存在的技术问题,本发明提供了一种应用于OCR的文本识别方法及AI系统。

第一方面,本发明实施例提供了一种应用于OCR的文本识别方法,应用于文本识别AI系统,所述方法包括:

对包含敏感资源文本的拟优化业务文本大数据进行文本集整理,得到至少两组目标业务文本集;

通过OCR敏感文本优化算法的第一词向量挖掘网络,对所述拟优化业务文本大数据进行词向量挖掘,得到所述拟优化业务文本大数据的业务文本词向量;

基于所述OCR敏感文本优化算法的第二词向量挖掘网络,分别对各所述目标业务文本集进行敏感词向量挖掘,得到对应的敏感文本词向量;

基于所述OCR敏感文本优化算法的词向量处理网络,对各所述目标业务文本集的敏感文本词向量进行加权操作,得到联动敏感文本词向量;

基于所述OCR敏感文本优化算法的敏感文本脱敏网络,基于所述联动敏感文本词向量及所述业务文本词向量,对所述拟优化业务文本大数据进行敏感文本脱敏,得到对应的已脱敏业务文本大数据。

在一些可能的实施例中,所述对包含敏感资源文本的拟优化业务文本大数据进行文本集整理,得到至少两组目标业务文本集,包括:

对包含敏感资源文本的拟优化业务文本大数据进行阶段化文本集整理,以生成对应所述拟优化业务文本大数据的第一阶段化文本数据库;

将所述第一阶段化文本数据库中每阶的文本集作为所述目标业务文本集。

在一些可能的实施例中,所述对包含敏感资源文本的拟优化业务文本大数据进行文本集整理,得到至少两组目标业务文本集,包括:

对包含敏感资源文本的拟优化业务文本大数据进行阶段化文本集整理,以生成对应所述拟优化业务文本大数据的第一阶段化文本数据库;

结合所述对应所述拟优化业务文本大数据的第一阶段化文本数据库,生成对应所述拟优化业务文本大数据的第二阶段化文本数据库;

分别将所述第一阶段化文本数据库中各阶的文本集与所述第二阶段化文本数据库中对应阶的文本集进行匹配,得到至少两个文本匹配集;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州佰锐网络科技有限公司,未经广州佰锐网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310042728.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top