[发明专利]一种处理文档信息的方法、装置、计算机存储介质及终端在审
申请号: | 202111342611.0 | 申请日: | 2021-11-12 |
公开(公告)号: | CN114065708A | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 辛洋 | 申请(专利权)人: | 珠海金山办公软件有限公司;北京金山办公软件股份有限公司;武汉金山办公软件有限公司 |
主分类号: | G06F40/166 | 分类号: | G06F40/166;G06F40/258;G06F40/205 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 凌齐文;李丹 |
地址: | 519015 广东省珠*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 处理 文档 信息 方法 装置 计算机 存储 介质 终端 | ||
本文公开一种处理文档信息的方法、装置、计算机存储介质及终端,本发明实施例在划分第一子文档后,将相同格式的段落搜集为同一段落组,在搜集的段落组中进行正文所在段落组和标题所在段落组的划分,实现了第二子文档的自动识别,提升了第二子文档的合并处理效率。
技术领域
本文涉及但不限于自动化办公技术,尤指一种处理文档信息的方法、装置、计算机存储介质及终端。
背景技术
多个文档可以合并为一个文档,被合并的文档被称为子文档,子文档由标题和正文组成,识别子文档是文档结构识别的基础。
相关技术中没有提供将文档准确识别拆分为多个子文档的方法,拆分子文本的错误率高,经常出现文档结构、格式或者特定区域等识别效果差的问题;如何提升子文档的识别效率,成为一个有待解决的问题。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本发明实施例提供一种处理文档信息的方法、装置、计算机存储介质及终端,能够提高文档结构识别的准确度,提升文档的识别效率。
本发明实施例提供了一种处理文档信息的方法,包括:
根据段落的属性将文档进行初步划分得到第一子文档;
将所述第一子文档中具有相同格式的段落搜集为同一段落组,所述段落组为多个;
在搜集的所述段落组中划分出正文所在段落组和标题所在段落组;
根据所述正文所在段落组和所述标题所在段落组确定第二子文档。
在一些实施例中,所述根据段落的属性将文档进行初步划分得到第一子文档,包括:
根据预设的正则表达式判断所述文档中是否包含所述第一子文档,所述正则表达式根据段落的属性设定;
根据是否包含所述第一子文档的判断结果,将文档初步划分得到所述第一子文档。
在一些实施例中,所述将所述第一文档中具有相同格式的段落搜集为同一段落组之前,所述方法还包括:
根据段落的所述属性,确定各段落的特征;
根据所述段落的特征确定用于搜集所述段落组的格式,所述用于搜集所述段落组的格式为至少一个。
在一些实施例中,所述将所述第一子文档中具有相同格式的段落搜集为同一段落组,包括:
通过确定的所述格式遍历第一子文档,确定具有相同格式的段落;
对确定的相同格式的段落,根据段落的最小段落序号和最大段落序号确定所述相同格式的段落组。
在一些实施例中,所述在搜集的所述段落组中划分出正文所在段落组和标题所在段落组,包括:
合并所述段落组中存在交集的段落得到新的段落组;
在所述新的段落组中划分出所述正文所在段落组和所述标题所在段落组。
在一些实施例中,所述在新的段落组中划分出正文所在段落组和标题所在段落组,包括:
根据所述段落的一项以上特征计算段落的预测值,一项以上特征包括用于区分字体组成的特征,段落的特征根据段落的属性确定;
根据计算出的段落的所述预测值,确定所述文档中包含的字号信息;
根据确定的所述字号信息,在所述新的段落组中划分出所述正文所在段落组和所述标题所在段落组。
在一些实施例中,所述根据计算出的段落的所述预测值,确定所述文档中包含的字号信息,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海金山办公软件有限公司;北京金山办公软件股份有限公司;武汉金山办公软件有限公司,未经珠海金山办公软件有限公司;北京金山办公软件股份有限公司;武汉金山办公软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111342611.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能照明监测系统
- 下一篇:一种客户端皮肤配置方法、装置、设备及介质
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置