[发明专利]基于自适应进化算法的保单数字化方法有效

专利信息
申请号: 202110586429.3 申请日: 2021-05-27
公开(公告)号: CN113360451B 公开(公告)日: 2022-04-05
发明(设计)人: 李闯 申请(专利权)人: 青岛全掌柜科技有限公司
主分类号: G06F16/11 分类号: G06F16/11;G06V30/412;G06N3/04;G06Q40/08;G06F17/16
代理公司: 武汉聚信汇智知识产权代理有限公司 42258 代理人: 郝雅娟
地址: 266000 山*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 自适应 进化 算法 保单 数字化 方法
【权利要求书】:

1.基于自适应进化算法的保单数字化方法,其特征在于,包括如下步骤:

(1)构建改进的OCR程序

在Faster R-CNN算法上添加新的神经网络,共计新增8层全连接神经网络,节点数目分别为16、16、8、16、8、4、2、1,构建改进的OCR程序,将图片化的纸质文本提取成无结构化的纯文本格式,提取的纯文本格式分为文本字段集合A和框体坐标集合B,所述集合A包含OCR程序识别出的所有字段;

(2)生成随机分配方案

在得到文本字段集合A和框体坐标集合B之后,生成随机分配方案;

(3)计算函数g

建立保单格式库,存储不同格式的保单,保单格式通过函数g进行描述

g=r(T) (1)

其中,T是210×297的矩阵,r是线性代数中求解矩阵的秩;矩阵T的现实含义为将A4纸横向划分210等份,纵向划分297等份,每个矩形上有文字则为1,无文字则为0;

矩阵T中的任意一个元素ai,j只能取值0或者1;ai,j=1表示第i行第j个矩形上面有文字,ai,j=0表示第i行第j个矩形上面没有文字;

(4)计算评价函数

本过程同标准进化算法一致,简述如下:

所述评价函数的公式如下:

公式中,α1为基础率,是被分配在基础字段名的字段值数量与总字段值数量的比值;α2为偏离度,是所有字段值中右侧坐标与字段名左侧坐标差值的方差;α3为距离,是补充字段的左侧到字段值右侧的距离之和;

(5)选择

本过程同标准进化算法一致,依照评价函数做锦标赛选择;

(6)交叉

本过程与标准进化算法存在极大不同,包括如下步骤:

步骤1:随机选择2个分配方案,命名为F1,F2

步骤2:取i=0;

步骤3:如果i小于297的长度,转步骤4,否则转步骤9;所述297是根据矩阵T的尺寸210*297确定的,可以遍历每一行;

步骤4:按照公式(3)计算交叉概率J;

步骤5:生成一个随机数a;

步骤6:判断a是否大于J,为真转步骤7,否则转步骤8;

步骤7:将F1中的第i行和F2中的第i行互换;

步骤8:i=i+1,转步骤3;

步骤9:结束;

经过步骤1到步骤9,得到了一个交叉的结果,因为共有5000个分配方案,所以需要重复执行步骤1到步骤9共计5000次,用来保证每一个分配方案都至少有一次交叉的机会;

(7)变异

本过程与标准进化算法存在极大不同,包括如下步骤:

步骤1:随机选择1个分配方案,命名为F;

步骤2:取i=0;

步骤3:如果i小于297的长度,转步骤4,否则转步骤9;所述297是根据矩阵T的尺寸210*297确定的,可以遍历每一行;

步骤4:按照公式(3)计算变异概率B;

步骤5:生成一个随机数a;

步骤6:判断a是否大于B,为真转步骤7,否则转步骤8;

步骤7:随机选择F中的任意两行进行互换;

步骤8:i=i+1,转步骤3;

步骤9:结束;

经过步骤1到步骤9,得到了一个变异的结果,因为共有5000个分配方案,所以需要重复执行步骤1到步骤9共计5000次,用来保证每一个分配方案都至少有一次变异的机会;

(8)获取结果

将步骤(7)中的结果代入步骤(3),重新开始步骤(3)到步骤(7),每重复一次步骤(3)到步骤(7),公式(4)的f值都会不断变大;当连续5次公式(4)的f值都不再增加的时候,本次保单数字化完全结束,取其中f值最大的一个分配方案作为最终结果;

(9)结束

完成一次保单数字化过程。

2.如权利要求1所述的基于自适应进化算法的保单数字化方法,其特征在于,步骤(2)生成随机分配方案,坐标就是集合B中的坐标,字段为集合A中的字段,包括步骤如下:

步骤1:获取字段值的个数Z1

步骤2:选择字段值中右侧坐标小于字段名左侧坐标部分,结果的集合用C表示,置i=1;

步骤3:判断C是否为空,如果C为空集,转步骤4,如果C为空集,步骤9;

步骤4:C为空集说明字段值无法匹配基础字段名,那么从补充字段名里寻找字段名给字段值匹配,从补充字段名中找到字段值可用的字段,集合用R表示;

步骤5:判断R是否为空,如果R为空集,转步骤6,如果R不为空集,转步骤8;

步骤6:R为空集说明没有空闲出来的补充字段名,那么取消第i字段值,转步骤14;

步骤7:R不为空集,尚未分配的字段名,存入集合R1表示,如R1为空集,转步骤8,如果R1不为空集,转步骤9;

步骤8:R1为空集,那么从集合R中随机找到一个字段名作为字段值i匹配的字段名,转步骤14;

步骤9:R1不为空集,那么从集合R1中随机找到一个字段名作为字段值i匹配的字段名,转步骤14;

步骤10:C不为空集,说明字段值中右侧坐标小于字段名左侧坐标,可以从基础字段名集合里寻找匹配的字段名,用集合用U表示,如果U为空集,转步骤11,如果U不为空集,步骤14;

步骤11:U为空集说明分配字段值时,所有基础字段名都没有空闲出来,那么计算字段值左侧与字段名右侧距离小于40个像素之内,有字段值空闲出来的基础字段名,字段名集合用N表示,如果N为空集的话,转步骤12,如果不为空集,转步骤13;

步骤12:N为空集,那么字段值i匹配的字段名只能从补充字段名里寻找,与上述的补充字段名搜寻方法一样,转步骤14;

步骤13:N不为空集,那么从N里随机选取字段名给字段值匹配,转步骤15,U不为空集说明字段值对应的基础字段名有空闲的,那么从集合R中随机找到一个字段名作为字段值i匹配的字段名,转步骤14;

步骤14:判断i≤Z1是否成立,如果成立,转步骤15,如果不成立,转步骤12;

步骤15:输出可行解,即随机分配方案。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛全掌柜科技有限公司,未经青岛全掌柜科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110586429.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top