[发明专利]应用于OCR的文本识别方法及AI系统有效
| 申请号: | 202310042728.X | 申请日: | 2023-01-28 |
| 公开(公告)号: | CN115828307B | 公开(公告)日: | 2023-05-23 |
| 发明(设计)人: | 请求不公布姓名 | 申请(专利权)人: | 广州佰锐网络科技有限公司 |
| 主分类号: | G06F21/62 | 分类号: | G06F21/62;G06F40/284;G06F18/27;G06V30/26 |
| 代理公司: | 广州博联知识产权代理有限公司 44663 | 代理人: | 马天鹰;王洪江 |
| 地址: | 510630 广东省广州市天河*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 应用于 ocr 文本 识别 方法 ai 系统 | ||
1.一种应用于OCR的文本识别方法,其特征在于,应用于文本识别AI系统,所述方法包括:
对包含敏感资源文本的拟优化业务文本大数据进行文本集整理,得到至少两组目标业务文本集;
通过OCR敏感文本优化算法的第一词向量挖掘网络,对所述拟优化业务文本大数据进行词向量挖掘,得到所述拟优化业务文本大数据的业务文本词向量;
基于所述OCR敏感文本优化算法的第二词向量挖掘网络,分别对各所述目标业务文本集进行敏感词向量挖掘,得到对应的敏感文本词向量;
基于所述OCR敏感文本优化算法的词向量处理网络,对各所述目标业务文本集的敏感文本词向量进行加权操作,得到联动敏感文本词向量;
基于所述OCR敏感文本优化算法的敏感文本脱敏网络,基于所述联动敏感文本词向量及所述业务文本词向量,对所述拟优化业务文本大数据进行敏感文本脱敏,得到对应的已脱敏业务文本大数据。
2.根据权利要求1所述的方法,其特征在于,所述对包含敏感资源文本的拟优化业务文本大数据进行文本集整理,得到至少两组目标业务文本集,包括:
对包含敏感资源文本的拟优化业务文本大数据进行阶段化文本集整理,以生成对应所述拟优化业务文本大数据的第一阶段化文本数据库;
将所述第一阶段化文本数据库中每阶的文本集作为所述目标业务文本集。
3.根据权利要求1所述的方法,其特征在于,所述对包含敏感资源文本的拟优化业务文本大数据进行文本集整理,得到至少两组目标业务文本集,包括:
对包含敏感资源文本的拟优化业务文本大数据进行阶段化文本集整理,以生成对应所述拟优化业务文本大数据的第一阶段化文本数据库;
结合所述对应所述拟优化业务文本大数据的第一阶段化文本数据库,生成对应所述拟优化业务文本大数据的第二阶段化文本数据库;
分别将所述第一阶段化文本数据库中各阶的文本集与所述第二阶段化文本数据库中对应阶的文本集进行匹配,得到至少两个文本匹配集;
将所述至少两个文本匹配集作为所述目标业务文本集。
4.根据权利要求1所述的方法,其特征在于,所述对包含敏感资源文本的拟优化业务文本大数据进行文本集整理,得到至少两组目标业务文本集,包括:
对包含敏感资源文本的拟优化业务文本大数据进行阶段化文本集整理,以生成对应所述拟优化业务文本大数据的第一阶段化文本数据库;
结合所述对应所述拟优化业务文本大数据的第一阶段化文本数据库,生成对应所述拟优化业务文本大数据的第二阶段化文本数据库;
分别对所述第一阶段化文本数据库中各阶的文本集进行语句提炼操作,得到对应的目标文本集;
分别将所述第一阶段化文本数据库中各阶的文本集、所述第二阶段化文本数据库中对应阶的文本集、以及与所述第二阶段化文本数据库中对应阶的文本集的规模相同的目标文本集进行匹配,得到至少两个文本匹配集;
将所述至少两个文本匹配集作为所述目标业务文本集。
5.根据权利要求1所述的方法,其特征在于,所述第二词向量挖掘网络包括X个局部词向量挖掘网络,所述目标业务文本集的数目为X,所述X为大于等于2的正整数;
所述基于所述OCR敏感文本优化算法的第二词向量挖掘网络,分别对各所述目标业务文本集进行敏感词向量挖掘,得到对应的敏感文本词向量,包括:将每个所述目标业务文本集加载到一个所述局部词向量挖掘网络,基于所述局部词向量挖掘网络对所述目标业务文本集进行敏感词向量挖掘,得到对应的敏感文本词向量。
6.根据权利要求1所述的方法,其特征在于,所述敏感文本词向量包括规模向量和关注向量,所述对各所述目标业务文本集的敏感文本词向量进行加权操作,得到联动敏感文本词向量,包括:
分别对各所述目标业务文本集的敏感文本词向量进行规模调整,得到对应各所述敏感文本词向量的目标敏感文本词向量;其中,各所述目标敏感文本词向量的规模向量相同;
对各所述目标敏感文本词向量的关注向量进行加权操作,得到联动关注向量;
将所述目标敏感文本词向量的规模向量与所述联动关注向量进行向量整合,得到所述联动敏感文本词向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州佰锐网络科技有限公司,未经广州佰锐网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310042728.X/1.html,转载请声明来源钻瓜专利网。





