[发明专利]文本的提取方法和装置、存储介质及电子装置在审
| 申请号: | 202210461647.9 | 申请日: | 2022-04-28 | 
| 公开(公告)号: | CN115100671A | 公开(公告)日: | 2022-09-23 | 
| 发明(设计)人: | 刘畅 | 申请(专利权)人: | 青岛海尔科技有限公司;海尔智家股份有限公司 | 
| 主分类号: | G06V30/413 | 分类号: | G06V30/413;G06V10/22 | 
| 代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 江舟 | 
| 地址: | 266101 山东省*** | 国省代码: | 山东;37 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 文本 提取 方法 装置 存储 介质 电子 | ||
本申请公开了一种文本的提取方法和装置、存储介质及电子装置,涉及智能家居领域,方法包括:在接收到用于请求在数字图书格式文件中提取目标文本的请求指令的情况下,通过光学字符识别技术获取所述数字图书格式文件中的第一文本、所述第一文本分别对应的第一文本框以及所述第一文本框对应的第一文本框面积;根据所述第一文本框面积确定所述第一文本框中文本的第一字号;根据所述第一字号和目录标识的第二字号在所述第一文本中确定所述目录标识所在的目录文本;根据所述目录文本在所述数字图书格式文件中提取所述目标文本。
技术领域
本发明涉及通信领域,具体而言,涉及一种文本的提取方法和装置、存储介质及电子装置。
背景技术
如今人工智能、大数据等技术的不断发展,人类社会对服务自动化、智能化的需求越来越高,知识图谱成为技术方案中必要的一环。对于家电来说,说明书是一个重要的知识来源。但是说明书的格式往往是数字图书格式PDF文件,很难直接使用人工智能技术提取。PDF文件提取的难点就在于,PDF文件不同于word或者其他文本格式,基本属于图像。现有技术中,会针对不同类型的PDF 文件,类如合同、发票、年报等,利用光学字符识别OCR技术将PDF文件转为文本,再定向获取文本知识。或者是先利用OCR技术,将PDF文件转为HTML 格式的文件,然后再用自然语言处理技术提取。
但是在利用光学字符识别OCR技术将PDF文件转为文本之后,失去了文本的格式信息,比如文本的字体、大小、颜色、缩进等,后续只能通过文本的语义信息理解对目标文本进行提取。
针对相关技术中,只能通过文本的语义信息理解对PDF文件中的目标文本进行提取等问题,尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文本的提取方法和装置、存储介质及电子装置,以至少解决相关技术中,只能通过文本的语义信息理解对PDF文件中的目标文本进行提取等问题。
根据本发明实施例的一个实施例,提供了一种文本的提取方法,包括:在接收到用于请求在数字图书格式文件中提取目标文本的请求指令的情况下,通过光学字符识别技术获取所述数字图书格式文件中的第一文本、所述第一文本分别对应的第一文本框以及所述第一文本框对应的第一文本框面积;根据所述第一文本框面积确定所述第一文本框中文本的第一字号;根据所述第一字号和目录标识的第二字号在所述第一文本中确定所述目录标识所在的目录文本;根据所述目录文本在所述数字图书格式文件中提取所述目标文本。
在一个示例性实施例中,根据所述第一文本框面积确定所述第一文本框中文本的第一字号,包括:确定所述第一文本框中的文本字数;根据所述第一文本框面积和所述文本字数确定任一文字的文字面积;通过文字面积和字号的第一对应关系确定所述任一文字的文字面积对应的字号,并将所述任一文字对应的字号作为所述第一文本框中文本的第一字号。
在一个示例性实施例中,根据所述第一字号和目录标识的第二字号在所述第一文本中确定所述目录标识所对应的目录文本之前,所述方法还包括:确定所述目录标识的第一标题类型,并通过标题类型与字号的第二对应关系确定所述目录标识对应的第二字号;在所述第一字号中确定与所述第二字号一致的字号,以及在所述第一文本中确定与所述第二字号一致的字号对应的第二文本;在所述第二文本中确定所述目录标识。
在一个示例性实施例中,根据所述第一字号和目录标识的第二字号在所述第一文本中确定所述目录标识所对应的目录文本,包括:在所述数字图书格式文件中确定所述目录标识所在的页面;在所述页面中确定所述目录标识所对应的目录文本。
在一个示例性实施例中,根据所述目录文本在所述数字图书格式文件中提取所述目标文本之前,所述方法还包括:提取所述目录文本的第一文字内容和第二文字内容,其中,所述第一文字内容用于指示所述数字图书格式文本的标题,所述第二文字内容用于指示所述第二文字内容对应的第一页码;建立所述第一文字内容和所述第二文字内容的第三对应关系;根据所述第三对应关系对所述数字图书格式文本进行分割,以得到每个第二文字内容对应的子数字图书格式文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛海尔科技有限公司;海尔智家股份有限公司,未经青岛海尔科技有限公司;海尔智家股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210461647.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种产业链财金管理系统
- 下一篇:一种分布式运动磁源定位系统





