[发明专利]基于自适应进化算法的保单数字化方法有效
申请号: | 202110586429.3 | 申请日: | 2021-05-27 |
公开(公告)号: | CN113360451B | 公开(公告)日: | 2022-04-05 |
发明(设计)人: | 李闯 | 申请(专利权)人: | 青岛全掌柜科技有限公司 |
主分类号: | G06F16/11 | 分类号: | G06F16/11;G06V30/412;G06N3/04;G06Q40/08;G06F17/16 |
代理公司: | 武汉聚信汇智知识产权代理有限公司 42258 | 代理人: | 郝雅娟 |
地址: | 266000 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 自适应 进化 算法 保单 数字化 方法 | ||
1.基于自适应进化算法的保单数字化方法,其特征在于,包括如下步骤:
(1)构建改进的OCR程序
在Faster R-CNN算法上添加新的神经网络,共计新增8层全连接神经网络,节点数目分别为16、16、8、16、8、4、2、1,构建改进的OCR程序,将图片化的纸质文本提取成无结构化的纯文本格式,提取的纯文本格式分为文本字段集合A和框体坐标集合B,所述集合A包含OCR程序识别出的所有字段;
(2)生成随机分配方案
在得到文本字段集合A和框体坐标集合B之后,生成随机分配方案;
(3)计算函数g
建立保单格式库,存储不同格式的保单,保单格式通过函数g进行描述
g=r(T) (1)
其中,T是210×297的矩阵,r是线性代数中求解矩阵的秩;矩阵T的现实含义为将A4纸横向划分210等份,纵向划分297等份,每个矩形上有文字则为1,无文字则为0;
矩阵T中的任意一个元素ai,j只能取值0或者1;ai,j=1表示第i行第j个矩形上面有文字,ai,j=0表示第i行第j个矩形上面没有文字;
(4)计算评价函数
本过程同标准进化算法一致,简述如下:
所述评价函数的公式如下:
公式中,α1为基础率,是被分配在基础字段名的字段值数量与总字段值数量的比值;α2为偏离度,是所有字段值中右侧坐标与字段名左侧坐标差值的方差;α3为距离,是补充字段的左侧到字段值右侧的距离之和;
(5)选择
本过程同标准进化算法一致,依照评价函数做锦标赛选择;
(6)交叉
本过程与标准进化算法存在极大不同,包括如下步骤:
步骤1:随机选择2个分配方案,命名为F1,F2;
步骤2:取i=0;
步骤3:如果i小于297的长度,转步骤4,否则转步骤9;所述297是根据矩阵T的尺寸210*297确定的,可以遍历每一行;
步骤4:按照公式(3)计算交叉概率J;
步骤5:生成一个随机数a;
步骤6:判断a是否大于J,为真转步骤7,否则转步骤8;
步骤7:将F1中的第i行和F2中的第i行互换;
步骤8:i=i+1,转步骤3;
步骤9:结束;
经过步骤1到步骤9,得到了一个交叉的结果,因为共有5000个分配方案,所以需要重复执行步骤1到步骤9共计5000次,用来保证每一个分配方案都至少有一次交叉的机会;
(7)变异
本过程与标准进化算法存在极大不同,包括如下步骤:
步骤1:随机选择1个分配方案,命名为F;
步骤2:取i=0;
步骤3:如果i小于297的长度,转步骤4,否则转步骤9;所述297是根据矩阵T的尺寸210*297确定的,可以遍历每一行;
步骤4:按照公式(3)计算变异概率B;
步骤5:生成一个随机数a;
步骤6:判断a是否大于B,为真转步骤7,否则转步骤8;
步骤7:随机选择F中的任意两行进行互换;
步骤8:i=i+1,转步骤3;
步骤9:结束;
经过步骤1到步骤9,得到了一个变异的结果,因为共有5000个分配方案,所以需要重复执行步骤1到步骤9共计5000次,用来保证每一个分配方案都至少有一次变异的机会;
(8)获取结果
将步骤(7)中的结果代入步骤(3),重新开始步骤(3)到步骤(7),每重复一次步骤(3)到步骤(7),公式(4)的f值都会不断变大;当连续5次公式(4)的f值都不再增加的时候,本次保单数字化完全结束,取其中f值最大的一个分配方案作为最终结果;
(9)结束
完成一次保单数字化过程。
2.如权利要求1所述的基于自适应进化算法的保单数字化方法,其特征在于,步骤(2)生成随机分配方案,坐标就是集合B中的坐标,字段为集合A中的字段,包括步骤如下:
步骤1:获取字段值的个数Z1;
步骤2:选择字段值中右侧坐标小于字段名左侧坐标部分,结果的集合用C表示,置i=1;
步骤3:判断C是否为空,如果C为空集,转步骤4,如果C为空集,步骤9;
步骤4:C为空集说明字段值无法匹配基础字段名,那么从补充字段名里寻找字段名给字段值匹配,从补充字段名中找到字段值可用的字段,集合用R表示;
步骤5:判断R是否为空,如果R为空集,转步骤6,如果R不为空集,转步骤8;
步骤6:R为空集说明没有空闲出来的补充字段名,那么取消第i字段值,转步骤14;
步骤7:R不为空集,尚未分配的字段名,存入集合R1表示,如R1为空集,转步骤8,如果R1不为空集,转步骤9;
步骤8:R1为空集,那么从集合R中随机找到一个字段名作为字段值i匹配的字段名,转步骤14;
步骤9:R1不为空集,那么从集合R1中随机找到一个字段名作为字段值i匹配的字段名,转步骤14;
步骤10:C不为空集,说明字段值中右侧坐标小于字段名左侧坐标,可以从基础字段名集合里寻找匹配的字段名,用集合用U表示,如果U为空集,转步骤11,如果U不为空集,步骤14;
步骤11:U为空集说明分配字段值时,所有基础字段名都没有空闲出来,那么计算字段值左侧与字段名右侧距离小于40个像素之内,有字段值空闲出来的基础字段名,字段名集合用N表示,如果N为空集的话,转步骤12,如果不为空集,转步骤13;
步骤12:N为空集,那么字段值i匹配的字段名只能从补充字段名里寻找,与上述的补充字段名搜寻方法一样,转步骤14;
步骤13:N不为空集,那么从N里随机选取字段名给字段值匹配,转步骤15,U不为空集说明字段值对应的基础字段名有空闲的,那么从集合R中随机找到一个字段名作为字段值i匹配的字段名,转步骤14;
步骤14:判断i≤Z1是否成立,如果成立,转步骤15,如果不成立,转步骤12;
步骤15:输出可行解,即随机分配方案。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛全掌柜科技有限公司,未经青岛全掌柜科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110586429.3/1.html,转载请声明来源钻瓜专利网。