[发明专利]一种文档结构的分析方法和装置在审
申请号: | 201610233947.6 | 申请日: | 2016-04-16 |
公开(公告)号: | CN107301180A | 公开(公告)日: | 2017-10-27 |
发明(设计)人: | 谢德意 | 申请(专利权)人: | 深圳市唯德科创信息有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518109 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文档 结构 分析 方法 装置 | ||
1.一种文档结构的分析方法,其特征在于,该方法包括如下步骤:
读取文档全文;
从所述文档全文中查找所有有效属性,并将每一所述有效属性在所述文档的对应位置处创建标签;
提取所有标签并创建成结构树。
2.如权利要求1所述的分析方法,其特征在于,所述读取文档全文的步骤之前还包括:定义预设属性。
3.如权利要求2所述的分析方法,其特征在于,所述从所述文档全文中查找所述有效属性,并将每一所述有效属性在所述文档的对应位置处创建标签的步骤包括:
根据所述文档全文的顺序依次读取关键属性;
将读取的所述关键属性与所述预设属性相互匹配;
若读取的所述关键属性与所述预设属性相匹配,则判断所述关键属性为有效属性,若读取的所述关键属性为无效属性,则继续读取所述文档中的下一关键属性;及
若读取的所述关键属性为有效属性,则将所述有效属性在所述文档对应的位置处创建标签,并继续读取所述文档的下一关键属性,直至整个文档读取完毕。
4.如权利要求3所述的分析方法,其特征在于,所述关键属性包括字体样式、段落样式、文字属性、标题级别或特殊文字中一种或多种。
5.如权利要求4所述的分析方法,其特征在于,若读取的所述关键属性与下列所述预设属性中任意一项相匹配,则判断所述关键属性为有效属性:所述预设属性包括 “说明书摘要”、“摘要附图”、“权利要求书”、“说明书”以及“说明书附图”的标题,其中,所述“说明书”包括 “技术领域”、“背景技术”、“发明内容”、“附图说明”及“具体实施方式”的特殊文字。
6.如权利要求1所述的分析方法,其特征在于,所述提取所有标签并创建成结构树的步骤包括:
根据每一所述标签在所述文档中的位置依次读取每个所述标签;
依据每一所述标签之间的逻辑层次关系建立逻辑结构树。
7.如权利要求3所述的分析方法,其特征在于,所述预设属性包括文档规则库,所述文档规则库包括但不限于专利撰写法规、撰写常用逻辑规则及自定义规则;若读取的所述关键属性与所述预设属性的所述文档规则库相匹配,若读取的所述关键属性与所述文档规则库不匹配,则在所述文档对应的位置处创建提示标记。
8.一种文档结构的分析装置,所述装置用于包括非易失性内存的计算机系统中,其特征在于,包括:
读取模块,用于读取文档全文;
查找模块,用于从所述文档全文中查找所有有效属性,并将每一所述有效属性在所述文档的对应位置处创建标签;
提取模块,用于提取所有标签并创建成结构树。
9.如权利要求8所述的分析装置,其特征在于,所述分析装置还包括:
预设模块,用于定义预设属性。
10.如权利要求9所述的分析装置,其特征在于,所述查找模块中还包括:
顺序读取单元,用于根据所述文档全文的顺序依次读取关键属性;
匹配单元,用于将读取的所述关键属性与所述预设属性相互匹配;
判断属性单元,用于判断所属关键属性是否为有效属性,若读取的所述关键属性与所述预设属性相匹配,则判断所述关键属性为有效属性,若读取的所述关键属性为无效属性,则继续读取所述文档中的下一关键属性;及
创建标签单元,用于创建标签,若读取的所述关键属性为有效属性,则将所述有效属性在所述文档对应的位置处创建标签,并继续读取所述文档的下一关键属性,直至整个文档读取完毕。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市唯德科创信息有限公司,未经深圳市唯德科创信息有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610233947.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:数据库读写分离的方法和装置
- 下一篇:账号推荐方法及装置