[发明专利]文本的提取方法和装置、存储介质及电子装置在审
| 申请号: | 202210461647.9 | 申请日: | 2022-04-28 | 
| 公开(公告)号: | CN115100671A | 公开(公告)日: | 2022-09-23 | 
| 发明(设计)人: | 刘畅 | 申请(专利权)人: | 青岛海尔科技有限公司;海尔智家股份有限公司 | 
| 主分类号: | G06V30/413 | 分类号: | G06V30/413;G06V10/22 | 
| 代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 江舟 | 
| 地址: | 266101 山东省*** | 国省代码: | 山东;37 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 文本 提取 方法 装置 存储 介质 电子 | ||
1.一种文本的提取方法,其特征在于,包括:
在接收到用于请求在数字图书格式文件中提取目标文本的请求指令的情况下,通过光学字符识别技术获取所述数字图书格式文件中的第一文本、所述第一文本分别对应的第一文本框以及所述第一文本框对应的第一文本框面积;
根据所述第一文本框面积确定所述第一文本框中文本的第一字号;
根据所述第一字号和目录标识的第二字号在所述第一文本中确定所述目录标识所在的目录文本;
根据所述目录文本在所述数字图书格式文件中提取所述目标文本。
2.根据权利要求1所述的方法,其特征在于,根据所述第一文本框面积确定所述第一文本框中文本的第一字号,包括:
确定所述第一文本框中的文本字数;
根据所述第一文本框面积和所述文本字数确定任一文字的文字面积;
通过文字面积和字号的第一对应关系确定所述任一文字的文字面积对应的字号,并将所述任一文字对应的字号作为所述第一文本框中文本的第一字号。
3.根据权利要求1所述的方法,其特征在于,根据所述第一字号和目录标识的第二字号在所述第一文本中确定所述目录标识所对应的目录文本之前,所述方法还包括:
确定所述目录标识的第一标题类型,并通过标题类型与字号的第二对应关系确定所述目录标识对应的第二字号;
在所述第一字号中确定与所述第二字号一致的字号,以及在所述第一文本中确定与所述第二字号一致的字号对应的第二文本;
在所述第二文本中确定所述目录标识。
4.根据权利要求1所述的方法,其特征在于,根据所述第一字号和目录标识的第二字号在所述第一文本中确定所述目录标识所对应的目录文本,包括:
在所述数字图书格式文件中确定所述目录标识所在的页面;
在所述页面中确定所述目录标识所对应的目录文本。
5.根据权利要求1所述的方法,其特征在于,根据所述目录文本在所述数字图书格式文件中提取所述目标文本之前,所述方法还包括:
提取所述目录文本的第一文字内容和第二文字内容,其中,所述第一文字内容用于指示所述数字图书格式文本的标题,所述第二文字内容用于指示所述第二文字内容对应的第一页码;
建立所述第一文字内容和所述第二文字内容的第三对应关系;
根据所述第三对应关系对所述数字图书格式文本进行分割,以得到每个第二文字内容对应的子数字图书格式文本。
6.根据权利要求5所述的方法,其特征在于,根据所述第三对应关系对所述数字图书格式文本进行分割,包括:
确定标题文本的第二标题类型,并通过标题类型与字号的第二对应关系确定所述标题文本对应的第三字号,其中,所述标题文本的文本内容与所述目录文本的第一文本内容相同;
根据所述第一字号和所述标题文本对应的第三字号在所述第一文本中确定所述标题文本;
根据所述第三对应关系确定所述标题文本对应的页面的第二页码,并根据所述第二页码对所述数字图书格式文本进行分割,以得到每个标题文本对应的子数字图书格式文本。
7.根据权利要求6所述的方法,其特征在于,根据所述目录文本在所述数字图书格式文件中提取所述目标文本,包括:
确定所述目标文本对应的目标标题文本,以及确定所述目标标题文本对应的目标子数字图书格式文本,其中,所述标题文本至少包括:目标标题文本;通过光学字符识别技术获取所述目标子数字图书格式文件中的第二文本、所述第二文本分别对应的第二文本框以及所述第二文本框对应的第二面积;
根据所述第二面积确定所述第二文本框中文本的第二字号;
根据所述第二字号在所述第二文本中提取目标文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛海尔科技有限公司;海尔智家股份有限公司,未经青岛海尔科技有限公司;海尔智家股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210461647.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种产业链财金管理系统
- 下一篇:一种分布式运动磁源定位系统





