[发明专利]识别文档的方法和装置有效
| 申请号: | 202110440033.8 | 申请日: | 2021-04-23 |
| 公开(公告)号: | CN113111829B | 公开(公告)日: | 2023-04-07 |
| 发明(设计)人: | 徐青松;李青 | 申请(专利权)人: | 杭州睿胜软件有限公司 |
| 主分类号: | G06V30/413 | 分类号: | G06V30/413;G06V30/19 |
| 代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 马景辉 |
| 地址: | 310053 浙江省杭州市滨*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 识别 文档 方法 装置 | ||
1.一种识别文档的方法,包括:
获取包含文档的图像;
根据所述文档的图像和多个候选类型模型确定所述文档的类型;以及
根据与所述文档的类型对应的提取模型,从所述文档的图像中提取所述文档中包含的第一信息作为识别结果,
其中,根据所述文档的图像和多个候选类型模型确定所述文档的类型包括:
根据所述多个候选类型模型获取所述文档中包含的第二信息,以得到多个候选提取结果;
根据所述多个候选提取结果计算所述各个候选类型模型的分数;以及
根据所述分数从所述多个候选类型模型中选择所述文档的类型模型,从而得到所述文档的类型,
所述分数取决于所述候选提取结果中包含的字段的数量,
其中,根据所述分数从所述多个候选类型模型中选择所述文档的类型模型,从而得到所述文档的类型还包括:
确定分数最高的候选类型模型;
确定根据所述分数最高的候选类型模型得到的候选提取结果中是否包含与所述分数最高的候选类型模型对应的文档类型相关联的类型字段及其对应的值;
在根据所述分数最高的候选类型模型得到的候选提取结果中包含类型字段及其对应的值的情况下,确定所述分数最高的候选类型模型作为所述文档的类型模型;
在根据所述分数最高的候选类型模型得到的候选提取结果中不包含类型字段及其对应的值的情况下,从剩余的候选类型模型中选择所述文档的类型模型。
2.根据权利要求1所述的方法,还包括:
确定所述图像中包含多个文档;以及
分割所述图像,以得到仅包含单个文档的子图像。
3.根据权利要求1所述的方法,其中,所述候选类型模型中的各个字段具有预定的权重,所述分数取决于所述候选提取结果中包含的字段的加权和。
4.根据权利要求3所述的方法,其中,所述候选类型模型中包含预定字段,所述预定字段的权重大于其它字段的权重。
5.根据权利要求4所述的方法,其中,所述预定字段的权重比其它字段的权重中的最大值大至少一个量级。
6.根据权利要求1所述的方法,还包括:
获取用户对所述识别结果的反馈,所述反馈包括正确的识别结果;
根据所述反馈将所述图像加入与所述文档的类型对应的所述提取模型的样本库;以及
使用所述图像训练所述提取模型。
7.根据权利要求1所述的方法,还包括:
获取用户对所述提取结果的反馈,所述反馈包括正确的识别结果;
根据所述反馈建立与所述文档的类型对应的新的提取模型并将所述图像加入新的提取模型的样本库;以及
使用所述图像训练所述新的提取模型。
8.根据权利要求1所述的方法,还包括:
获取用户对所述识别结果的反馈,所述反馈包括所述文档的正确类型;
根据所述反馈将所述图像加入与所述文档的正确类型对应的类型模型的样本库;以及
使用所述图像训练所述类型模型。
9.根据权利要求1所述的方法,还包括:
获取用户对所述识别结果的反馈,所述反馈包括所述文档的正确类型;
根据所述反馈建立与所述文档的正确类型对应的新的类型模型并将所述图像加入所述新的类型模型的样本库;以及
使用所述图像训练所述新的类型模型。
10.根据权利要求1所述的方法,还包括:
根据所述识别结果建立索引。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州睿胜软件有限公司,未经杭州睿胜软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110440033.8/1.html,转载请声明来源钻瓜专利网。





