[发明专利]业务单据影像内容识别方法及装置在审
申请号: | 202110243207.1 | 申请日: | 2021-03-05 |
公开(公告)号: | CN112926471A | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 张鹏;齐蓉;王虹;刘忆惠 | 申请(专利权)人: | 中国工商银行股份有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 任默闻;王涛 |
地址: | 100140 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 业务 单据 影像 内容 识别 方法 装置 | ||
本发明提供了一种业务单据影像内容识别方法及装置,适用于物联网领域,方法包括:对待识别的业务单据影像进行文字识别生成包括识别文字及文字位置信息的业务单据的文字信息;根据识别文字、文字位置信息和预设的语义判别模型生成候选目标段落;根据识别文字、候选目标段落利用预先训练的文本分类模型生成结构化的业务单据内容识别结果。本发明可广泛应用于基于文字识别结果的业务场景中,特别适用于影像组织结构非标准化且样式繁多的影像,能够以同一的方式在文字识别结果的基础上实现影像数据的结构化提取。能够在通用的不依赖具体文字识别实现的基础上,有效实现复杂影像数据的结构化提取,最终提升文字识别的自动化处理整体任务的准确率。
技术领域
本发明涉及图像处理技术,具体的讲是一种业务单据影像内容识别方法及装置。
背景技术
在信用证等国际业务中,客户需提供发票、保单和提运单等单据供银行审核,这些跨国或地区的交易和结算,往往涉及不同公司不同板式的单据影像,如表格型、分栏型或开放式等。
现有技术中,OCR技术虽然能够有效识别影像内容,但还无法有效组织识别后的结果,因此,目前相关国际业务还是以业务人员手工处理为主。
发明内容
为了至少克服现有技术中业务单据影像识别的一缺陷,本发明提供了一种业务单据影像内容识别方法,包括:
对待识别的业务单据影像进行文字识别生成包括识别文字及文字位置信息的业务单据的文字信息;
根据所述识别文字、文字位置信息和预设的语义判别模型生成候选目标段落;
根据所述的识别文字、候选目标段落利用预先训练的文本分类模型生成结构化的业务单据内容识别结果。
本发明实施例中,所述的根据所述识别文字、文字位置信息和预设的语义判别模型生成候选目标段落包括:
根据所述文字位置信息确定段落候选区域;
利用预设的语义判别模型对段落候选区域中的识别文字进行语义判别,生成候选目标段落。
本发明实施例中,所述的文字信息还包括:文字的字体大小信息、文字的间隔距离及文字高度信息;所述的根据所述文字位置信息确定段落候选区域包括:
根据所述的文字位置信息确定初始的段落候选区域;
根据初始的段落候选区域中文字的字体大小、文字间隔距离及文字高度确定段落候选区域。
本发明实施例中,所述的根据所述的识别文字、候选目标段落利用预先训练的文本分类模型生成结构化的业务单据内容识别结果包括:
根据预设的关键字确定所述的识别文字中存在的关键字;
根据确定的关键字的位置信息确定该关键字对应的候选目标段落;
利用预先训练的文本分类模型对关键字及其对应的候选目标段落进行匹配解析生成结构化的业务单据内容识别结果。
本发明实施例中,所述的根据所述识别文字、文字位置信息和预设的语义判别模型生成候选目标段落还包括:
获取预先存储的业务文本数据;
利用所述业务文本数据对预设的初始的语言模型进行模型训练生成预设的语义判别模型。
本发明实施例中,所述的根据所述的识别文字、候选目标段落利用预先训练的文本分类模型生成结构化的业务单据内容识别结果包括:
获取预先存储的业务键值对数据;其中,所述的业务键值对数据包括:业务的关键字及关键字对应的段落数据;
利用所述的业务的关键字及关键字对应的段落数据对预设的初始的文本分类模型进行模型训练生成预设的文本分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110243207.1/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法