[发明专利]一种基于关键词拆分技术的文档关键信息提取方法和系统在审
申请号: | 202111052073.1 | 申请日: | 2021-09-08 |
公开(公告)号: | CN113850056A | 公开(公告)日: | 2021-12-28 |
发明(设计)人: | 佘俊;赵增涛;余少锋;廖崇阳;罗勇 | 申请(专利权)人: | 南方电网调峰调频发电有限公司信息通信分公司 |
主分类号: | G06F40/154 | 分类号: | G06F40/154;G06F40/258;G06F40/221;G06F40/169 |
代理公司: | 成都鱼爪智云知识产权代理有限公司 51308 | 代理人: | 梁悦敏 |
地址: | 511492 广东省广州市番禺区东环街番禺大*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 关键词 拆分 技术 文档 关键 信息 提取 方法 系统 | ||
1.一种基于关键词拆分技术的文档关键信息提取方法,其特征在于,包括:
将获取的目标文档转换成XML格式文档;
基于关键词拆分检测技术对XML格式文档进行关键信息提取。
2.根据权利要求1所述的一种基于关键词拆分技术的文档关键信息提取方法,其特征在于,所述目标文档包括html文档、pdf文档和word文档。
3.根据权利要求1所述的一种基于关键词拆分技术的文档关键信息提取方法,其特征在于,所述基于关键词拆分检测技术对XML格式文档进行关键信息提取的方法包括:基于关键词拆分检测技术对XML格式文档的关键字进行提取。
4.根据权利要求3所述的一种基于关键词拆分技术的文档关键信息提取方法,其特征在于,基于关键词拆分检测技术对XML格式文档的关键字进行提取的方法包括:
由文章开头开始向后逐段扫描查询含有关键词或关键字的字样,对含有关键词或关键字的字样的段落进行标记得到标记的段落;
若标记的段落中关键词或关键字的字样在段首则判定为关键字段;
获取关键字段中的各关键词。
5.根据权利要求1所述的一种基于关键词拆分技术的文档关键信息提取方法,其特征在于,所述基于关键词拆分检测技术对XML格式文档进行关键信息提取的方法包括:对XML格式文档的标题进行提取。
6.根据权利要求5所述的一种基于关键词拆分技术的文档关键信息提取方法,其特征在于,对XML格式文档的标题进行提取的方法包括:
判断正文开始位置;
从正文开始位置向前搜索在预设字数内的小段落标记得到多个标记小段落;
从多个标记小段落寻找居中的小段落,判定为居中的段落为标题。
7.一种基于关键词拆分技术的文档关键信息提取系统,其特征在于,包括:
转换模块,用于获取目标文档并将目标文档转换成XML格式文档;
关键信息提取模块,用于基于关键词拆分检测技术对XML格式文档进行关键信息提取。
8.根据权利要求7所述的一种基于关键词拆分技术的文档关键信息提取系统,其特征在于,所述转换模块还包括:
标记模块,用于由文章开头开始向后逐段扫描查询含有关键词或关键字的字样,对含有关键词或关键字的字样的段落进行标记得到标记的段落;
判定模块,用于若标记的段落中关键词或关键字的字样在段首则判定为关键字段;
获取关键词模块,用于获取关键字段中的各关键词。
9.一种电子设备,其特征在于,包括:
至少一个处理器、至少一个存储器和数据总线;其中:
所述处理器与所述存储器通过所述数据总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令以执行如权利要求1至6任一所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行如权利要求1至6任一所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南方电网调峰调频发电有限公司信息通信分公司,未经南方电网调峰调频发电有限公司信息通信分公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111052073.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种油田用防结蜡智能管道系统
- 下一篇:一种基于神经网络的文本定位技术