[发明专利]文档排版方法、装置、电子设备和存储介质在审
申请号: | 202211321232.8 | 申请日: | 2022-10-26 |
公开(公告)号: | CN115618808A | 公开(公告)日: | 2023-01-17 |
发明(设计)人: | 于娟娟 | 申请(专利权)人: | 北京字跳网络技术有限公司 |
主分类号: | G06F40/109 | 分类号: | G06F40/109 |
代理公司: | 北京天达共和律师事务所 11798 | 代理人: | 向伟;李园 |
地址: | 100190 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 排版 方法 装置 电子设备 存储 介质 | ||
本公开提供文档排版方法、装置、电子设备和存储介质。所述文档排版方法包括:对文档进行版块划分,得到多个语义信息不同的版块;对从所述文档中抽取的每一行文本进行语义识别,并根据语义识别结果将所述每一行文本添加至对应的版块;对各个所述版块进行排序,根据排序结果生成文本序列。本公开的方法可根据文档的语义信息对抽取出来的文本进行排版,使得排版后的文本序列更加符合用户的阅读习惯。
技术领域
本公开涉及计算机技术领域,尤其涉及一种文档排版方法、装置、电子设备和存储介质。
背景技术
简历解析是将文本简历解析成结构化简历的过程,该过程生成的结构化简历将更有利于存储和后续使用。其中,排版恢复作为简历解析过程中很重要的一个环节,通过对抽取出来的文本行进行顺序调整,使得调整后的文本序列更符合阅读顺序,从而为后续的简历解析过程提供了基础保证。
发明内容
提供该发明内容部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
本公开提供一种文档排版方法、装置、电子设备和存储介质。
本公开采用以下的技术方案。
在一些实施例中,本公开提供一种文档排版方法,包括:
对文档进行版块划分,得到多个语义信息不同的版块;
对从所述文档中抽取的每一行文本进行语义识别,并根据语义识别结果将所述每一行文本添加至对应的版块;
对各个所述版块进行排序,根据排序结果生成文本序列。
在一些实施例中,本公开提供一种文档排版装置,包括:
第一处理模块,用于对文档进行版块划分,得到多个语义信息不同的版块;
第二处理模块,用于对从所述文档中抽取的每一行文本进行语义识别,并根据语义识别结果将所述每一行文本添加至对应的版块;
第三处理模块,用于对各个所述版块进行排序,根据排序结果生成文本序列。
在一些实施例中,本公开提供一种电子设备,包括:至少一个存储器和至少一个处理器;
其中,存储器用于存储程序代码,处理器用于调用所述存储器所存储的程序代码执行上述的方法。
在一些实施例中,本公开提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码在被处理器运行时,促使所述处理器执行上述方法。
本公开实施例提供的文档排版方法通过对文档进行版块划分,得到多个语义信息不同的版块;然后对从所述文档中抽取的每一行文本进行语义识别,并根据语义识别结果将所述每一行文本添加至对应的版块;最后对各个所述版块进行排序,根据排序结果生成文本序列。本公开实施例对文档进行初步的语义版块划分,将属于一个语义版块的文本行放在一起,然后针对各个版块进行整体排序,进而可将一份文档排版恢复成可阅读的顺序。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,元件和元素不一定按照比例绘制。
图1是本公开实施例的文档排版方法的流程图。
图2是本公开实施例的文档排版的示意图之一。
图3是本公开实施例的文档排版的示意图之二。
图4是本公开实施例的文档排版的示意图之三。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字跳网络技术有限公司,未经北京字跳网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211321232.8/2.html,转载请声明来源钻瓜专利网。