[发明专利]电子书的排版处理方法、电子设备及存储介质在审
申请号: | 202210102461.4 | 申请日: | 2022-01-27 |
公开(公告)号: | CN114492303A | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 李铭瀚;张恒 | 申请(专利权)人: | 掌阅科技股份有限公司 |
主分类号: | G06F40/109 | 分类号: | G06F40/109;G06F16/903 |
代理公司: | 北京开阳星知识产权代理有限公司 11710 | 代理人: | 吴崇 |
地址: | 100022 北京市朝阳区东三环中路3*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电子书 排版 处理 方法 电子设备 存储 介质 | ||
1.一种电子书的排版处理方法,其特征在于,所述方法包括:
对电子书的版式文档中包含的原始文本进行解析,得到所述原始文本包含的至少一个字符串;
针对所述至少一个字符串中的目标字符串,将所述目标字符串与预设词汇表进行匹配;
在确定所述目标字符串存在与所述预设词汇表中的单词匹配成功的第一字符组合时,根据所述第一字符组合,将所述目标字符串拆分为多个子字符串;
在每两个相邻的字符串以及每两个相邻的子字符串之间分别添加空格,得到所述电子书的流式文档。
2.根据权利要求1所述的方法,其特征在于,在所述针对所述至少一个字符串中的目标字符串,将所述目标字符串与预设词汇表进行匹配之前,所述方法还包括:
确定每个所述字符串的字符总数;
将字符总数大于预设数量阈值的字符串作为所述目标字符串。
3.根据权利要求1或2所述的方法,其特征在于,所述将所述目标字符串与预设词汇表进行匹配,包括:
按照预设的拆分方式,将所述目标字符串拆分为多组字符组合;
针对每组所述字符组合,将所述字符组合与所述预设词汇表进行匹配。
4.根据权利要求3所述的方法,其特征在于,所述将所述字符组合与所述预设词汇表进行匹配,包括:
按照所述预设词汇表的单词排列顺序,将所述预设词汇表中的单词逐个与所述字符组合进行比对,直至匹配到与所述字符组合完全相同的单词或者遍历完所述预设词汇表。
5.根据权利要求3所述的方法,其特征在于,所述将所述字符组合分别与所述预设词汇表进行匹配,包括:
在所述预设词汇表中,按照所述字符组合的字符排列顺序,依次对与每个字符匹配的单词进行筛选,直至匹配到与所述字符组合完全相同的单词或者不存在可供筛选的单词。
6.根据权利要求3所述的方法,其特征在于,所述将所述目标字符串与预设词汇表进行匹配,包括:
按照最大匹配法或者最小匹配法,将所述目标字符串与所述预设词汇表进行匹配。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述目标字符串中存在与所述预设词汇表中的单词匹配失败的第二字符组合,将所述第二字符组合与相邻的字符串拼接,得到拼接字符串;
将所述拼接字符串作为新的目标字符串,并返回执行所述将所述目标字符串与预设词汇表进行匹配的步骤。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
在所述至少一个字符串均与所述预设词汇表进行匹配之后,检测拆分得到的子字符串中是否存在与所述预设词汇表的单词匹配失败的目标子字符串;
若存在所述目标子字符串,将所述目标子字符串保存至未匹配成功列表中。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器用于存储可执行指令,所述可执行指令使所述处理器执行以下操作:
对电子书的版式文档中包含的原始文本进行解析,得到所述原始文本包含的至少一个字符串;
针对所述至少一个字符串中的目标字符串,将所述目标字符串与预设词汇表进行匹配;
在确定所述目标字符串存在与所述预设词汇表中的单词匹配成功的第一字符组合时,根据所述第一字符组合,将所述目标字符串拆分为多个子字符串;
在每两个相邻的字符串以及每两个相邻的子字符串之间分别添加空格,得到所述电子书的流式文档。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,当所述计算机程序被处理器执行时,使得处理器实现用上述权利要求1-8中任一项所述的电子书的排版处理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于掌阅科技股份有限公司,未经掌阅科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210102461.4/1.html,转载请声明来源钻瓜专利网。