[发明专利]一种票据文本识别方法、装置、计算机设备及存储介质在审

专利信息
申请号: 202211559252.9 申请日: 2022-12-06
公开(公告)号: CN115984890A 公开(公告)日: 2023-04-18
发明(设计)人: 郭喜亚 申请(专利权)人: 平安健康保险股份有限公司
主分类号: G06V30/42 分类号: G06V30/42;G06V30/413;G06V30/412;G06F40/295;G06N3/045
代理公司: 深圳市世联合知识产权代理有限公司 44385 代理人: 罗志铭
地址: 200030 上海*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 票据 文本 识别 方法 装置 计算机 设备 存储 介质
【说明书】:

本申请实施例属于人工智能中的票据文本识别技术领域,涉及一种票据文本识别方法,包括获取待识别的票据图像;通过预设的识别定位模型对票据图像进行文本识别;通过预设的多模态transformer模型对文本信息进行命名实体抽取;基于预设配对规则,结合多个命名实体和布局信息构建实体对的候选集;通过预设的关联判断模型对每个实体对是否存在关联进行判断;将判断结果为存在关联的实体对进行合并。本申请还提供一种票据识别装置、计算机设备及存储介质。此外,本申请还涉及区块链技术,用户的票据图像、文本信息等可存储于区块链中subgt;。/subgt;本申请提高了票据在折叠、部分字段换行等情况下文本识别的精度。

技术领域

本申请涉及人工智能技术领域,尤其涉及一种票据文本识别方法、装置、计算机设备及存储介质。

背景技术

医疗账单是医疗保险报销必须提供的材料,医疗账单票面包含就诊人姓名、发票号、合计金额、费用项信息、统筹基金支付、就诊日期等关键字段。当前全国各地存在多种版式的医疗账单,这些关键字段所在位置及形式并不统一。即便当前国家推行电子票据,仍有相当高比例医院未接入电子发票,且各医院对电子发票“其他信息”区域的打印信息不一致。这些情况导致医保报销时录入人员需基于对业务的理解关注不同版式发票的不同信息。

医疗账单场景中的结构化识别通常有以下几种解决方案:利用OCR识别模型对医疗发票进行文本识别,基于NLP技术进行全文抽取;基于固定字段切片或固定区域,抽取所需关键字段信息;基于多个检测及分割模型,分区块进行识别与匹配;自定义大量解析模板,不同类型发票分流至对应解析流程。

然而,在实际应用过程中,经常出现如下问题:纸张较薄易折叠弯曲,导致账单同一费用项的多个信息不在同一水平线上,名称和金额等信息无法一一对应;部分字段出现换行,只能抽取到第一行的信息。

现有技术对于上述医疗票据的易折叠、部分字段换行打印等特点未做针对性优化,导致识别结果经常出现错误,使得需要人工介入的环节较多,拉长周期,同时也提高了理赔报销信息化成本。

发明内容

本申请实施例的目的在于提出一种票据文本识别方法、装置、计算机设备及存储介质,以解决现有技术中在票据存在折叠、部分字段换行等情况下文本识别容易出现错误的问题。

为了解决上述技术问题,本申请实施例提供一种票据文本识别方法、装置、计算机设备及存储介质,采用了如下所述的技术方案:

一种票据文本识别方法,包括下述步骤:

获取待识别的票据图像;

通过预设的识别定位模型对所述票据图像进行文本识别,得到文本信息和对应的布局信息;

通过预设的多模态transformer模型对所述文本信息进行命名实体抽取,得到对应的多个命名实体;

基于预设配对规则,结合所述多个命名实体和所述布局信息构建实体对的候选集;

通过预设的关联判断模型对每个所述实体对是否存在关联进行判断;

将判断结果为存在关联的实体对进行合并,得到合并文本。

进一步的,在所述通过预设的识别定位模型对所述票据图像进行文本识别的步骤之前,还包括:

对所述票据图像是否存在偏转进行判断;

若存在偏转,则对所述票据图像进行旋转操作,得到正向的所述票据图像。

进一步的,在所述通过预设的识别定位模型对所述票据图像进行文本识别的步骤之前,还包括:

将所述票据图像输入预设的语义分割模型,得到对应的掩码图;

提取所述掩码图的连通域的边界,设定所述边界的最小外接矩形区域;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安健康保险股份有限公司,未经平安健康保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211559252.9/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top