[发明专利]一种文档结构的分析方法和装置在审
申请号: | 201610233947.6 | 申请日: | 2016-04-16 |
公开(公告)号: | CN107301180A | 公开(公告)日: | 2017-10-27 |
发明(设计)人: | 谢德意 | 申请(专利权)人: | 深圳市唯德科创信息有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518109 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文档 结构 分析 方法 装置 | ||
技术领域
本发明涉及文档数据分析领域,特别涉及一种文档结构的分析方法和装置。
背景技术
一般而言,各种类型的文档都有着自己特定的专有格式,例如,发明专利文档,通常包括有说明书摘要、摘要附图、权利要求书、说明书以及说明书附图这五部分。用户阅读专利文档采用的多为PDF或者Word等格式进行阅读,由于这些文档没有对应于说明书、权利要求书、附图等内容进行标签分类,用户在查阅这些专利文档时需要单页浏览,因此,当需要查阅大量专利文档时或者查阅具有数百页的专利文档时,用户必将浪费大量时间及精力去阅读,与之同理,阅读其他类型的文档也会出现上述问题,给用户阅览文档带来很大的不便。
发明内容
鉴于以上内容,有必要提供一种文档结构的分析方法和装置,能够获取文档的特定文字和格式并创建出相应地文档结构,方便用户根据文档结构精准快速地查阅文档内容。
为解决上述技术问题,本发明采用的一种技术方案是:提供一种文档结构的分析方法,该方法包括如下步骤:
读取文档全文;
从所述文档全文中查找所有有效属性,并将每一所述有效属性在所述文档的对应位置处创建标签;
提取所有标签并创建成结构树。
其中,所述读取文档全文的步骤之前还包括:定义预设属性。
其中,所述从所述文档全文中查找所述有效属性,并将每一所述有效属性在所述文档的对应位置处创建标签的步骤包括:
根据所述文档全文的顺序依次读取关键属性;
将读取的所述关键属性与所述预设属性相互匹配;
若读取的所述关键属性与所述预设属性相匹配,则判断所述关键属性为有效属性,若读取的所述关键属性为无效属性,则继续读取所述文档中的下一关键属性;及
若读取的所述关键属性为有效属性,则将所述有效属性在所述文档对应的位置处创建标签,并继续读取所述文档的下一关键属性,直至整个文档读取完毕。
其中,所述关键属性包括字体样式、段落样式、文字属性、标题级别或特殊文字中的一种或多种。
其中,若读取的所述关键属性与下列所述预设属性中任意一项相匹配,则判断所述关键属性为有效属性:所述预设属性包括 “说明书摘要”、“摘要附图”、“权利要求书”、“说明书”以及“说明书附图”的标题,其中,所述“说明书”包括 “技术领域”、“背景技术”、“发明内容”、“附图说明”及“具体实施方式”的特殊文字。
其中,所述提取所有标签并创建成结构树的步骤包括:
根据每一所述标签在所述文档中的位置依次读取每个所述标签;
依据每一所述标签之间的逻辑层次关系建立逻辑结构树。
其中,所述预设属性包括文档规则库,所述文档规则库包括但不限于专利撰写法规、撰写常用逻辑规则及自定义规则;若读取的所述关键属性与所述预设属性的所述文档规则库相匹配,若读取的所述关键属性与所述文档规则库不匹配,则在所述文档对应的位置处创建提示标记。
本发明采用的另一种技术方案是:提供一种文档结构的分析装置,包括:
读取模块,用于读取文档全文;
查找模块,用于从所述文档全文中查找所有有效属性,并将每一所述有效属性在所述文档的对应位置处创建标签;
提取模块,用于提取所有标签并创建成结构树。
其中,所述分析装置还包括:
预设模块,用于定义预设属性。
其中,所述查找模块中还包括:
顺序读取单元,用于根据所述文档全文的顺序依次读取关键属性;
匹配单元,用于将读取的所述关键属性与所述预设属性相互匹配;
判断属性单元,用于判断所属关键属性是否为有效属性,若读取的所述关键属性与所述预设属性相匹配,则判断所述关键属性为有效属性,若读取的所述关键属性为无效属性,则继续读取所述文档中的下一关键属性;及
创建标签单元,用于创建标签,若读取的所述关键属性为有效属性,则将所述有效属性在所述文档对应的位置处创建标签,并继续读取所述文档的下一关键属性,直至整个文档读取完毕。
相较于现有技术,本发明提供的一种文档结构的分析方法和系统,能够获取文档的特定格式并创建出相应地文档结构,用户在查阅这些专利文档时无需单页浏览,通过创建的文档结构即可快速定位到文档对应位置处,方便用户根据文档结构精准快速地查阅文档内容。
附图说明
图1是本发明一种文档的分析方法第一实施方式的流程示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市唯德科创信息有限公司,未经深圳市唯德科创信息有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610233947.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据库读写分离的方法和装置
- 下一篇:账号推荐方法及装置