[发明专利]文档排版方法、装置、电子设备和存储介质在审
申请号: | 202211321232.8 | 申请日: | 2022-10-26 |
公开(公告)号: | CN115618808A | 公开(公告)日: | 2023-01-17 |
发明(设计)人: | 于娟娟 | 申请(专利权)人: | 北京字跳网络技术有限公司 |
主分类号: | G06F40/109 | 分类号: | G06F40/109 |
代理公司: | 北京天达共和律师事务所 11798 | 代理人: | 向伟;李园 |
地址: | 100190 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 排版 方法 装置 电子设备 存储 介质 | ||
1.一种文档排版方法,其特征在于,包括:
对文档进行版块划分,得到多个语义信息不同的版块;
对从所述文档中抽取的每一行文本进行语义识别,并根据语义识别结果将所述每一行文本添加至对应的版块;
对各个所述版块进行排序,根据排序结果生成文本序列。
2.根据权利要求1所述的方法,其特征在于,所述对文档进行版块划分,得到多个语义信息不同的版块,包括:
对所述文档进行版块识别,得到所述文档包含的语义信息;
根据所述语义信息,将所述文档划分为不同的版块。
3.根据权利要求2所述的方法,其特征在于,所述对从所述文档中抽取的每一行文本进行语义识别,包括:
对从所述文档中抽取的每一行文本进行排序,并对排序后的所述每一行文本进行语义识别。
4.根据权利要求3所述的方法,其特征在于,所述根据语义识别结果将所述每一行文本添加至对应的版块,包括:
若当前文本的语义识别结果包含版块语义信息,则根据所述版块语义信息将所述当前文本添加至对应的版块;
若当前文本的语义识别结果不包含版块语义信息,则根据上下文信息将所述当前文本添加至对应的版块。
5.根据权利要求4所述的方法,其特征在于,所述若当前文本的语义识别结果包含版块语义信息,则根据所述版块语义信息将所述当前文本添加至对应的版块,包括:
若当前存在与所述版块语义信息匹配的版块,则将所述当前文本添加至版块;
若当前不存在与所述版块语义信息匹配的版块,则新建版块,并将所述当前文本添加至新建版块。
6.根据权利要求4所述的方法,其特征在于,所述若当前文本的语义识别结果不包含版块语义信息,则根据上下文信息将所述当前文本添加至对应的版块,包括:
若当前存在与所述当前文本的上下文信息匹配的版块,则将所述当前文本添加至版块;
若当前不存在与所述当前文本的上下文信息匹配的版块,则新建版块,并将所述当前文本添加至新建版块。
7.根据权利要求1所述的方法,其特征在于,还包括:
若当前不存在版块,则根据当前文本的语义识别结果新建版块,并将所述当前文本添加至新建版块。
8.根据权利要求1所述的方法,其特征在于,在将所述每一行文本添加至对应的版块后,还包括:
根据文本的字符坐标信息,更新所述版块的边界信息,所述边界信息包括边界坐标值。
9.根据权利要求8所述的方法,其特征在于,所述对各个所述版块进行排序,包括:
根据所述版块的边界信息,判断所述版块是否满足预设合并条件;
若满足预设合并条件,则对满足预设合并条件的版块合并后,对各个所述版块进行排序,否则直接对各个所述版块进行排序。
10.根据权利要求9所述的方法,其特征在于,所述根据排序结果生成文本序列,包括:
根据排序结果依次遍历各个版块中的文本,生成文本序列。
11.一种文档排版装置,其特征在于,包括:
第一处理模块,用于对文档进行版块划分,得到多个语义信息不同的版块;
第二处理模块,用于对从所述文档中抽取的每一行文本进行语义识别,并根据语义识别结果将所述每一行文本添加至对应的版块;
第三处理模块,用于对各个所述版块进行排序,根据排序结果生成文本序列。
12.一种电子设备,包括:
至少一个存储器和至少一个处理器;
其中,所述至少一个存储器用于存储程序代码,所述至少一个处理器用于调用所述至少一个存储器所存储的程序代码执行权利要求1至10中任一项所述的方法。
13.一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码在被计算机设备运行时,促使所述计算机设备执行权利要求1至10中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字跳网络技术有限公司,未经北京字跳网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211321232.8/1.html,转载请声明来源钻瓜专利网。