[发明专利]生成目录结构化信息的方法和装置有效
申请号: | 201910973998.6 | 申请日: | 2019-10-14 |
公开(公告)号: | CN110705503B | 公开(公告)日: | 2022-02-25 |
发明(设计)人: | 田英爱;王长胜;李宁;施运梅;李海波 | 申请(专利权)人: | 北京信息科技大学 |
主分类号: | G06V30/413 | 分类号: | G06V30/413;G06F16/901;G06F40/189 |
代理公司: | 北京唯智勤实知识产权代理事务所(普通合伙) 11557 | 代理人: | 陈佳 |
地址: | 100085 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 生成 目录 结构 信息 方法 装置 | ||
1.一种生成目录结构化信息的方法,包括:
获取待处理版式文档,所述待处理版式文档包括目录;
基于所述目录的目录特征信息,对所述目录进行识别,得到版式目录信息;
对所述版式目录信息依次进行去噪、分栏、成行分段、去重处理,得到处理后的版式目录信息,其中,所述对所述版式目录信息依次进行去噪、分栏、成行分段、去重处理,得到处理后的版式目录信息,包括:去除所述目录起始页码至目录结束页码范围内的非文本图元,保留目录页版心范围内的文本图元并按页储存,得到页面块集和页面块中的文本图元集;根据所述目录特征信息中的栏目类型、目录页版心和阅读方向,得到分栏区域框集合;依据阅读顺序,分栏区域的宽度,文本图元纵坐标和转换矩阵值计算得到真实绘制起始纵坐标偏差值,若某行中各文本图元纵坐标偏差值大于偏差范围且纵坐标偏差值无交集时,则依据纵坐标偏差值拆分为多个独立文本图元数据,并重新拆解和组装对应的页面块,在误差偏差范围内且没有超出的分栏区域的宽度的文本图元归并为一行,成行分析计算的结果形式依然为版面块集和文本图元集;在成行分析的结果上进行成段分析,若前后两行的字体大小、文本勾边/填充颜色、字体样式、字体名称不同,则前一行独立成段;若前后两行行尾字符的起始绘制横坐标值差值小于误差偏差范围且纵坐标值差值大于误差偏差范围,则前一行独立成段;若前后两行首字符为目录级别编号或目录项修饰符中“第”,而且后续3个字符出现在目录级别编号或关键字列表或目录项修饰符中,则前一行独立成段;若前后两行行首字符横坐标值差值小于误差偏差范围且纵坐标值差值大于误差偏差范围,则前一行独立成段;若前后两行纵坐标偏差值存在交集时,继续判断下一行是否与第一行纵坐标偏差值存在交集,若存在交集且该行与前一行的行首横坐标值差值小于1mm,且接续的下一行中匹配到大量目录项修饰符,则将这些行归并为一段;循环处理目录页范围内的前后两行文本的成段分析,跨页时前后两页的两行成段分析与上述成段分析相同,得到成行分段结果;对于所述成行分段结果内的行文本图元进行流式文本图元阅读顺序重排计算和流式去重分析计算;调整文档阅读顺序;
将处理后的版式目录信息映射为目录结构化信息。
2.根据权利要求1所述的方法,其中,所述目录特征信息包括目录起始页码和目录结束页码,所述目录起始页码和目录结束页码通过以下步骤确定:
确定活动目录中是否包含目录起始页码和目录结束页码;
响应于确定所述活动目录中包含目录起始页码和目录结束页码,从所述活动目录中获取所述目录起始页码和目录结束页码;
响应于确定所述活动目录中不包含目录起始页码和目录结束页码,接收操作人员输入的目录起始页码和目录结束页码。
3.根据权利要求2所述的方法,其中,所述目录特征信息包括阅读方向信息,所述阅读方向信息通过以下步骤确定:
确定所述待处理版式文档的阅读方向与预设阅读方向信息所表征的阅读方向是否相同;
响应于确定所述待处理版式文档的阅读方向与预设阅读方向信息所表征的阅读方向相同,将所述预设阅读方向信息确定为所述阅读方向信息;
响应于确定所述待处理版式文档的阅读方向与预设阅读方向信息所表征的阅读方向不同,从预设的至少一个候选阅读方向信息中选取一个候选阅读方向信息作为所述阅读方向信息。
4.根据权利要求1-3中任一所述的方法,其中,所述将处理后的版式目录信息映射为目录结构化信息,包括:
初始结构化信息根节点,以及生成对应的目录页节点;
依据处理后的结果中的段落个数依次在所述目录页节点下增加段落节点;
在段落节点下增加片段节点,以及将所述处理后的版式目录信息中所包含的页码映射到片段节点;
在片段节点下增加图元块节点,以及将所述处理后的版式目录信息中所包含的图元列表按处理后的结果所在段落中的版面块集合中的每个携带有阅读顺序的图元标识依次映射到图元块节点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910973998.6/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置