[发明专利]文档的分割方法、装置及电子设备在审
申请号: | 202010489748.8 | 申请日: | 2020-06-02 |
公开(公告)号: | CN111832258A | 公开(公告)日: | 2020-10-27 |
发明(设计)人: | 刘涵 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/131 | 分类号: | G06F40/131;G06F40/109 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 石茵汀 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 分割 方法 装置 电子设备 | ||
1.一种文档的分割方法,其特征在于,包括:
获取目标文档;
从所述目标文档之中提取多个元素;
获取所述多个元素的语义特征和图像特征;
根据所述多个元素的语义特征和所述图像特征确定多个分割点;以及
根据所述多个分割点对所述目标文档进行分割。
2.如权利要求1所述的文档的分割方法,其特征在于,所述获取所述多个元素的语义特征,包括:
获取所述元素之中多个字符的多个特征表达;以及
根据所述多个字符的多个特征表达生成所述语义特征。
3.如权利要求1所述的文档的分割方法,其特征在于,所述获取所述多个元素的图像特征,包括:
获取所述多个元素的空间位置特征;
获取所述多个元素的字体特征;以及
根据所述多个元素的空间位置特征和所述字体特征,生成所述多个元素的图像特征。
4.如权利要求3所述的文档的分割方法,其特征在于,所述多个元素的字体特征包括字体类型特征、字体颜色特征和字体大小特征之中的一种或多种。
5.如权利要求1所述的文档的分割方法,其特征在于,所述根据所述多个元素的语义特征和所述图像特征确定多个分割点,包括:
将所述多个元素的语义特征和所述图像特征输入文档分割模型之中,以生成所述多个分割点。
6.如权利要求5所述的文档的分割方法,其特征在于,所述将所述多个元素的语义特征和所述图像特征输入文档分割模型之中,以生成所述多个分割点,包括:
所述文档分割模型根据所述语义特征和所述图像特征生成第一至第T特征表达,并将所述第一特征表达与所述第一至第T特征表达进行联合以生成联合特征,根据所述联合特征进行分类以生成所述多个分割点,其中,T为总体时间步。
7.如权利要求1-6任一所述的文档的分割方法,其特征在于,所述获取目标文档,包括:
获取待处理文档;
对所述待处理文档进行解析处理,以确定所述待处理文档中包括的各待处理元素的空间位置特征;
根据所述各待处理元素的空间位置特征,确定待合并的候选元素对;
将所述候选元素对进行合并处理,以生成所述目标文档。
8.一种文档的分割装置,其特征在于,包括:
第一获取模块,用于获取目标文档;
提取模块,用于从所述目标文档之中提取多个元素;
第二获取模块,用于获取所述多个元素的语义特征和图像特征;
确定模块,用于根据所述多个元素的语义特征和所述图像特征确定多个分割点;以及
分割模块,用于根据所述多个分割点对所述目标文档进行分割。
9.如权利要求8所述的文档的分割装置,其特征在于,所述第二获取模块,包括:
第一获取单元,用于获取所述元素之中多个字符的多个特征表达;以及
第一生成单元,用于根据所述多个字符的多个特征表达生成所述语义特征。
10.如权利要求8所述的文档的分割装置,其特征在于,所述第二获取模块,包括:
第二获取单元,用于获取所述多个元素的空间位置特征;
第三获取单元,用于获取所述多个元素的字体特征;以及
第二生成单元,用于根据所述多个元素的空间位置特征和所述字体特征,生成所述多个元素的图像特征。
11.如权利要求10所述的文档的分割装置,其特征在于,所述多个元素的字体特征包括字体类型特征、字体颜色特征和字体大小特征之中的一种或多种。
12.如权利要求8所述的文档的分割装置,其特征在于,所述确定模块,包括:
第三生成单元,用于将所述多个元素的语义特征和所述图像特征输入文档分割模型之中,以生成所述多个分割点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010489748.8/1.html,转载请声明来源钻瓜专利网。