[发明专利]文档处理方法、装置、系统、电子设备及存储介质在审
| 申请号: | 202010873450.7 | 申请日: | 2020-08-26 |
| 公开(公告)号: | CN112000834A | 公开(公告)日: | 2020-11-27 |
| 发明(设计)人: | 冯博豪;庞敏辉;谢国斌 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06F16/583 | 分类号: | G06F16/583;G06K9/00;G06K9/46 |
| 代理公司: | 北京市铸成律师事务所 11313 | 代理人: | 杨瑾瑾;林军 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文档 处理 方法 装置 系统 电子设备 存储 介质 | ||
1.一种文档处理方法,包括:
获取第一历史文档的图像;
对所述第一历史文档的图像进行区域划分,得到至少一类区域;
对所述至少一类区域分别进行对应的特征提取,得到所述至少一类区域分别对应的子特征信息;
将所述至少一类区域分别对应的子特征信息作为所述第一历史文档的特征进行存储。
2.根据权利要求1所述的方法,其中,所述对所述第一历史文档的图像进行区域划分,得到至少一类区域,包括:
对所述第一历史文档的图像进行区域划分,得到表格区域、文字区域、图片区域中的至少一类区域。
3.根据权利要求2所述的方法,其中,所述对所述至少一类区域分别进行对应的特征提取,得到所述至少一类区域分别对应的子特征信息,包括以下至少之一:
对所述图片区域进行图像特征提取得到图像特征;
对所述文字区域进行识别得到文字,从识别得到的文字中提取关键词特征;
对所述表格区域进行图像识别得到所述表格的图像特征,以及对所述表格区域进行识别得到文字所对应的关键词特征。
4.根据权利要求1所述的方法,其中,所述方法还包括:
对所述第一历史文档的图像进行预处理,得到预处理后的第一历史文档的图像。
5.根据权利要求4所述的方法,其中,所述对所述第一历史文档的图像进行预处理,包括:
基于目标检测算法对所述第一历史文档的图像进行外框检测,得到所述第一历史文档的图像的外框坐标;
基于所述外框坐标确定所述第一历史文档的图像的主体部分;
基于外框坐标对所述第一历史文档的图像的主体部分进行倾斜校正,得到校正后的第一历史文档的图像。
6.根据权利要求1所述的方法,其中,所述方法还包括:
基于所述第一历史文档的特征,确定所述第一历史文档所对应的领域类别。
7.根据权利要求1-6任一项所述的方法,其中,所述方法还包括:
获取到检索请求;
基于N个历史文档分别对应的特征,选取与所述检索请求匹配的目标历史文档;其中,N为大于等于1的整数。
8.根据权利要求7所述的方法,其中,所述检索请求包括:文本信息;
所述基于N个历史文档分别对应的特征,选取与所述检索请求匹配的目标历史文档,包括:
获取所述文本信息与所述N个历史文档所对应的关键词特征之间的文本相似度,从所述N个历史文档中选取与所述文本信息之间的文本相似度最高的历史文档作为所述目标历史文档;
或者,
基于所述文本信息的目标领域类别,确定所述目标领域类别所对应的所述N个历史文档;基于所述文本信息与所述N个历史文档所对应的关键词特征的文本相似度,从所述N个历史文档中选取与所述文本信息之间的文本相似度最高的历史文档作为所述目标历史文档。
9.根据权利要求7所述的方法,其中,所述检索请求包括:图像信息;
基于N个历史文档分别对应的特征,选取与所述检索请求匹配的目标历史文档,包括:
确定所述图像信息所对应的特征图;
基于所述特征图以及所述N个历史文档所对应的图像特征确定所述图像信息与所述N个历史文档之间的图像相似度;
从所述N个历史文档中选取图像相似度最高的历史文档作为所述目标历史文档。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010873450.7/1.html,转载请声明来源钻瓜专利网。





