[发明专利]文档信息处理方法、装置、计算机设备及可读存储介质在审
申请号: | 202010076288.6 | 申请日: | 2020-01-23 |
公开(公告)号: | CN113158655A | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 尤勇敏;其他发明人请求不公开姓名 | 申请(专利权)人: | 久瓴(上海)智能科技有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06K9/00 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 毛丹 |
地址: | 202150 上海市崇明区横沙乡富民*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 信息处理 方法 装置 计算机 设备 可读 存储 介质 | ||
本申请提供文档信息处理方法、装置、计算机设备及可读存储介质,该方法包括:根据关键字信息,对初始建筑文档进行识别处理,得到识别信息,按照预设编排方式对所述识别信息进行编排处理,得到目标建筑文档;该方法可以通过智能识别技术,将建筑领域的不可编辑文件直接转换成可编辑的目标建筑文档,使得获取的可编辑文件的准确率较高,同时,也避免了人工方式进行查错更正,提高文件转换效率,节省了人力资源。
技术领域
本申请涉及建筑文件识别领域,特别是涉及一种文档信息处理方法、装置、计算机设备及可读存储介质。
背景技术
PDF是一种电子文件格式。PDF文件具有良好的格式稳定性和内容可读性,在文件传输、网页发布等领域具有广泛的应用。但是,PDF文件中的文字和图片不能直接进行粘贴复制。
传统技术中,通过第三方软件将PDF文件转换成可编辑文件。但是,采用传统的方式转换后的文件的错误率较高,从而导致转档文件的准确率较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高转档文件准确率的文档信息处理方法、装置、计算机设备及可读存储介质。
本申请实施例提供一种文档信息处理方法,所述方法包括:
根据关键字信息,对初始建筑文档进行识别处理,得到识别信息;其中,所述初始建筑文档为建筑领域内容的不可编辑文件;
按照预设编排方式对所述识别信息进行编排处理,得到目标建筑文档;其中,所述目标建筑文件为从所述初始建筑文档获取到的可编辑文件。
在其中一个实施例中,所述根据关键字信息,对初始建筑文档进行识别处理,得到识别信息;其中,所述初始建筑文档为建筑领域内容的不可编辑文件,包括:
根据第一关键字信息,对初始建筑文档进行识别处理,得到第一识别信息;其中,所述初始建筑文档为建筑领域内容的不可编辑文件;
根据第二关键字信息,对所述初始建筑文档进行识别处理,得到第二识别信息;其中,所述第二关键字信息与所述第一关键字信息为所述初始建筑文档中不同的关键字信息。
在其中一个实施例中,所述根据第一关键字信息,对初始建筑文档进行识别处理,得到第一识别信息,包括:
根据第一关键字信息,对初始建筑文档中的标题进行识别处理,得到包含所述第一关键字信息的标题对应的初始识别信息;
若所述初始识别信息为第一文字信息,则将所述第一文字信息作为所述第一识别结果。
在其中一个实施例中,所述方法还包括:
若所述初始识别信息为第一图片,则对所述第一图片进行图片识别处理,得到所述第一图片信息,并将所述图片信息作为所述第一识别结果。
在其中一个实施例中,所述对所述第一图片进行图片识别处理,得到所述第一图片信息,并将所述图片信息作为所述第一识别结果,包括:
根据所述第一图片中的图集信息,对所述第一图片进行图片识别处理,得到所述第一图片信息,并将所述图片信息作为所述第一识别结果。
在其中一个实施例中,所述根据第二关键字信息,对所述初始建筑文档进行识别处理,得到第二识别信息,包括:
根据所述第二关键字信息,对所述初始建筑文档中的标题进行识别处理,得到包含所述第二关键字信息的标题对应的中间识别信息;
根据第三关键字信息,对所述中间识别信息进行识别处理,得到包含所述第三关键字信息的目标识别信息;其中,所述第三关键字信息、所述第二关键字信息与所述第一关键字信息均不相同;
若所述目标识别信息为第二文字信息,则将所述第二文字信息作为所述第二识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于久瓴(上海)智能科技有限公司,未经久瓴(上海)智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010076288.6/2.html,转载请声明来源钻瓜专利网。