[发明专利]小票消费明细内容融合及提取方法、设备以及存储介质有效
申请号: | 201811267693.5 | 申请日: | 2018-10-29 |
公开(公告)号: | CN109460725B | 公开(公告)日: | 2019-10-01 |
发明(设计)人: | 李华康;张坤;金旭;孔令军;方浪;管慧娟 | 申请(专利权)人: | 苏州派维斯信息科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00 |
代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 郭磊;殷海霞 |
地址: | 215000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种小票消费明细内容融合及提取方法。一种小票消费明细内容融合及提取方法,包括:获取客户上传的小票图片的文本文档;利用深度学习网络对小票文档中的每一行文字进行分类,得到了每行带有标签的行标签文档;根据所述带有标签的行标签文档,获取小票的明细区域;根据明细索引关键字找出明细索引行,对于含有或不含有明细索引行都要进行明细完整性判断然后进行明细行合并;获取小票中的各条消费明细属性信息列表。本发明的有益效果:由于是专门针对小票设计,相对传统的信息抽取方法效果好。 | ||
搜索关键词: | 内容融合 标签 文档 索引 索引关键字 完整性判断 属性信息 文本文档 信息抽取 传统的 行合并 上传 分类 客户 网络 学习 图片 | ||
【主权项】:
1.一种小票消费明细内容融合及提取方法,其特征在于,包括:获取客户上传的小票图片的文本文档;利用深度学习网络对小票文档中的每一行文字进行分类,得到了每行带有标签的行标签文档;根据所述带有标签的行标签文档,获取小票的明细区域;根据明细索引关键字找出明细索引行,对于含有或不含有明细索引行都要进行明细完整性判断然后进行明细行合并;获取小票中的各条消费明细属性信息列表;其中,“根据明细索引关键字找出明细索引行,对于含有或不含有明细索引行都要进行明细完整性判断然后进行明细行合并;”具体包括:S41,首先将明细行集合中的每一行表示成由标签数字组成的字符串;S42,初始设置标志flag=0,计算出明细行集合中的第一行与第二行的文本编辑距离d1,如果明细行集合中只有一行,那么此行就作为一个完整的明细;设定一个阈值t1,如果d1<t1,执行步骤S43,否则,如果flag==0时,执行步骤S44(1),flag==1时,执行步骤S44(2);S43,将第一行和第二行分别作为两个完整的明细;在得到两个明细模板后,取出明细集合中的第三行,分别计算第三行与第一行的编辑距离d2和第三行与第二行的编辑距离d3,计算这两个距离的平均值;后面再将第三行与第四行合并,也分别计算出它与两个明细模板的编辑距离,计算其平均值,如果平均值减小了,将第三四行进行合并,后面的操作一直进行,直到距离平均值不再减小,明细行合并结束,这样就得到一个新的明细;如果明细行集合还有剩余,同理进行同样操作,最终得到一个完整的明细集合;S44,(1)如果原始明细行集合只有两行,就将这两个明细行合并作为一个完整的明细,就无需进行后面的执行过程;将第二行与第三合并得到新的明细行,假设此明细行为一个完整的明细,再将第二三四行合并得到另一个新的明细行,由于一个完整的明细一般最多由3行明细行组成的,所以只有这两种合并方式;计算出这两个明细模板与第一行的编辑距离d4、d5,计算d*=min{d4、d5},设定一个阈值t2,若d*<t2,如果d*=d4,二三行合并,否则二三四行合并,这样得到一个新的明细行作为新明细行集合的第二行,执行步骤S43;如果d*>=t2,执行步骤S45;(2)如果原始明细行集合只有两行,就将这两个明细行合并作为一个完整的明细,就无需进行后面的执行过程;首先假设第二行本身就为一个完整的明细,将第二行与第三合并得到新的明细行,将此也看作一个完整的明细,再将第二三四行合并得到另一个新的明细行,因为一般一个完整的明细最多由3行明细行组成的,所以只有这两种合并方式;计算出这三个明细模板与第一行的编辑距离d4、d5、d6,计算d*=min{d4、d5、d6},设定一个阈值t3,如果d*<t3,如果d*=d4,不做合并操作,如果d*=d5,二三行合并,否则二三四行合并,这样得到一个新的明细行作为新明细行集合的第二行,执行步骤S43;如果d*>=t3,执行步骤S45;S45,将第一行与第二行进行合并,将此合并后的结果作为新的明细行集合的第一行,这样得到了一个新的明细行集合且flag设为1;然后再重新执行步骤S42;由于一个完整的明细最多囊括三个明细行,此时如果原始的明细行集合中的第一二三行已经进行了合并操作,此时就将此合并的结果作为一个完整的明细,假如原始明细行集合中还有剩余的明细行,再次执行步骤S43,不过此时只需计算一个编辑距离,由于只含有一个明细模板。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州派维斯信息科技有限公司,未经苏州派维斯信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811267693.5/,转载请声明来源钻瓜专利网。