[发明专利]基于自适应进化算法的保单数字化方法有效
申请号: | 202110586429.3 | 申请日: | 2021-05-27 |
公开(公告)号: | CN113360451B | 公开(公告)日: | 2022-04-05 |
发明(设计)人: | 李闯 | 申请(专利权)人: | 青岛全掌柜科技有限公司 |
主分类号: | G06F16/11 | 分类号: | G06F16/11;G06V30/412;G06N3/04;G06Q40/08;G06F17/16 |
代理公司: | 武汉聚信汇智知识产权代理有限公司 42258 | 代理人: | 郝雅娟 |
地址: | 266000 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 自适应 进化 算法 保单 数字化 方法 | ||
本发明提供基于自适应进化算法的保单数字化方法,用于解决当前保单数字化方法OCR识别准确度和结构化准确度都较低的问题。方法使用改进的OCR方法,在Faster R‑CNN算法上添加新的神经网络,共计新增8层全连接神经网络,节点数目分别为16、16、8、16、8、4、2、1,构建改进的OCR程序;结构化部分使用自适应进化算法,在通用进化算法基础上,在步骤(2)和步骤(4)之间添加了步骤(3)计算函数g,将每份保单都抽象化为一个函数;并且修改了通用进化算法的步骤(6)、步骤(7),以自动适配不同的保单格式。极大提升了保单数字化的准确率。
技术领域
本发明属于保险业单据数字化优化领域,具体涉及基于自适应进化算法(adaptive evolutional algorithm,AEA)的保单数字化方法。
背景技术
保单数字化是指将纸质保单通过OCR技术转化为无结构纯文本,然后将 无结构纯文本结构化,转化为计算机可识别的格式,供保险业的其他业务流 程调用。着我国经济的快速发展,国民收入水平的大幅提高,民众的保单持 有量也在快速飙升,对保险业的数字化管理水平提出了更高的要求。截止到 2020年,我国各类保单共计16.7亿张,人均1.19张。其中,数字化保单不足 1.9亿张,绝大部分保单依旧是纸质保单,没有实现数字化,造成了客户在理 赔、核保、预核保等诸多环节的不变。截止到2021年3月,我国各类纸质保 单平均理赔时长为2.03月,客户理赔过程投诉率0.21%;各类数字化保单平 均理赔时长为0.84月,客户理赔过程投诉率0.09%。由此可见,保单数字化 是提升保险业整体服务水平的关键。
在保单数字化的研究过程中,国内外学者提出了诸多方法。如使用经典 神经网络Faster R-CNN对纸质保单做OCR处理,而后通过OCR中的框体对 无结构纯文本进行结构化。该方法在通用保单格式中OCR准确率70%,结构 化准确率40%,综合准确率可达35%。针对结构化准确率低的问题,有学者 针对单一格式的保单,使用进化算法处理结构化部分,将结构化准确率提升 到86%。该方法严重依赖保单格式,无法适配通用保单格式,无法工业化。
鉴于当前保单数字化方法OCR识别准确度和结构化准确度都较低的问题, 有必要提供一种新的保单数字化方法,以解决上述问题。
发明内容
本发明的目的是:针对背景技术描述的问题,本发明提供一种基于AEA 的保单数字化方法,用于解决当前保单数字化方法OCR识别准确度和结构化 准确度都较低的问题。
为了解决上述问题,本发明所采用的技术方案是:
基于自适应进化算法的保单数字化方法,其特征在于,包括如下步骤:
(1)构建改进的OCR程序
在Faster R-CNN算法上添加新的神经网络,共计新增8层全连接神经网 络,节点数目分别为16、16、8、16、8、4、2、1,构建改进的OCR程序, 将图片化的纸质文本提取成无结构化的纯文本格式,提取的纯文本格式分为 文本字段集合A和框体坐标集合B,所述集合A包含OCR程序识别出的所 有字段;
(2)生成随机分配方案
在得到文本字段集合A和框体坐标集合B之后,生成随机分配方案;
(3)计算函数g
建立保单格式库,存储不同格式的保单,保单格式通过函数g进行描述
g=r(T) (4)
其中,T是210×297的矩阵,r是线性代数中求解矩阵的秩;矩阵T的现 实含义为将A4纸横向划分210等份,纵向划分297等份,每个矩形上有文字 则为1,无文字则为0;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛全掌柜科技有限公司,未经青岛全掌柜科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110586429.3/2.html,转载请声明来源钻瓜专利网。