[发明专利]一种增值税发票信息的提取方法在审
| 申请号: | 201911064339.7 | 申请日: | 2019-11-04 |
| 公开(公告)号: | CN110751136A | 公开(公告)日: | 2020-02-04 |
| 发明(设计)人: | 罗中;宋爽;王君健 | 申请(专利权)人: | 北京亿信华辰软件有限责任公司武汉分公司 |
| 主分类号: | G06K9/18 | 分类号: | G06K9/18;G06K9/36;G06K9/46;G06Q30/04 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 430200 湖北*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 发票信息 发票 增值税发票 打印内容 图片 背景表格 版式 预处理 打印区域 发票打印 内容确定 区域匹配 色调差异 文本识别 信息提取 二值化 蓝色调 容错性 文本行 综合分析 像素 | ||
1.一种增值税发票信息的提取方法,其特征在于:
步骤(1),发票图片预处理,确定增值税发票版式:获取增值税发票的彩色扫描图片,并对图片进行预处理,得到无旋转且方位正确的预处理图片;识别发票图片中的发票监制章中,对发票监制章中的省份名称进行识别,确定被处理发票图片的增值税发票版式;
步骤(2),提取发票打印内容图片:利用增值税发票的背景表格文字和发票上的打印内容的色调差异,从预处理图片中提取蓝色的打印内容像素,并进行二值化处理得到打印内容图片;
步骤(3),构造模板,利用模板匹配并提取发票信息项图片块:根据步骤(1)中确定的发票版式构造发票信息打印区域模板,利用模板对步骤(2)得到的发票打印内容图片进行区域匹配,并提取匹配区域的图片块为发票各信息项图片块;
步骤(4),识别发票信息项内容:对步骤(3)得到的发票各信息项图片块进行文本识别,并综合分析得到发票的各项信息;结束。
2.如权利要求1所述的一种增值税发票信息的提取方法,步骤(1)所述对图片进行预处理得到无旋转且方位正确的预处理图片,其特征在于:
识别发票图片中的直线,计算图片中位于最上方的一条直线与水平方向顺时针夹角,当该夹角不等于0时,将图片逆时针旋转该角度即可确保图片无旋转;
定位发票图片中的发票监制章,如果发票监制章的位置不在图片上部居中位置,则将图片旋转90度或者180度或者270度,以确保发票监制章的位置位于图片上部居中位置。
3.如权利要求1所述的一种增值税发票信息的提取方法,步骤(1)所述确定被处理发票图片对应的发票版式,其特征在于:
对定位到的发票监制章进行文字识别,并从识别出的文字中匹配中国省份的名称,匹配到名称的省份的增值税发票版式即为被处理发票图片的发票版式。
4.如权利要求1所述的一种增值税发票的提取方法,步骤(2)所述从预处理图片中提取仅包含发票图片上打印内容的图片,其特征在于:
将预处理图片转换到HSV(或HSL)颜色空间模型,将转换后的图片中像素的H数值在范围(240度-delta,240度+delta)之内的所有像素(蓝色像素,delta的值在0到60之间)复制到新建的和预处理图片同样大小的空白图片的对应位置、二值化处理之后的图片即为打印内容图片。
5.如权利要求1所述的一种增值税发票的提取方法,步骤(3)所述构造增值税发票模板,其特征在于:
利用步骤(1)中确定的发票版式,以及发票图片上识别到的发票背景表格的大小信息,构建一张和步骤(2)得到的打印内容图片大小一样并且将各发票信息项打印矩形区域进行标记的模板图片。
6.如权利要求1所述的一种增值税发票的提取方法,步骤(4)所述综合分析得到发票的各项信息,其特征在于:
将发票各信息项对应的图片块的文本行识别结果,结合该发票信息项的业务含义、构成规则、文本行在发票图片中的字体大小和行高进行综合分析,对文本行进行合并、拆分,得到确切的发票信息项内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京亿信华辰软件有限责任公司武汉分公司,未经北京亿信华辰软件有限责任公司武汉分公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911064339.7/1.html,转载请声明来源钻瓜专利网。





