[发明专利]一种基于关键词拆分技术的文档关键信息提取方法和系统在审
申请号: | 202111052073.1 | 申请日: | 2021-09-08 |
公开(公告)号: | CN113850056A | 公开(公告)日: | 2021-12-28 |
发明(设计)人: | 佘俊;赵增涛;余少锋;廖崇阳;罗勇 | 申请(专利权)人: | 南方电网调峰调频发电有限公司信息通信分公司 |
主分类号: | G06F40/154 | 分类号: | G06F40/154;G06F40/258;G06F40/221;G06F40/169 |
代理公司: | 成都鱼爪智云知识产权代理有限公司 51308 | 代理人: | 梁悦敏 |
地址: | 511492 广东省广州市番禺区东环街番禺大*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 关键词 拆分 技术 文档 关键 信息 提取 方法 系统 | ||
本发明提出了一种基于关键词拆分技术的文档关键信息提取方法和系统,涉及文档关键信息提取领域。该方法包括:将获取的目标文档转换成XML格式文档;基于关键词拆分检测技术对XML格式文档进行关键信息提取。通过获取目标文档并将目标文档转换成XML格式文档;XML为可扩展标记语言,是一种用于标记电子文件使其具有结构性的标记语言。因此将目标文档转换成XML格式文档,便于后续提取信息。基于关键词拆分检测技术对XML格式文档进行关键信息提取。该步骤中,可以从连续的自然语言文本中,抽取出结构化的关键字段信息。解决文档信息量大且过于繁杂、无法让用户快速获取需要的信息的问题。
技术领域
本发明涉及文档关键信息提取领域,具体而言,涉及一种基于关键词拆分技术的文档关键信息提取方法和系统。
背景技术
目前对资料文档的文字提取存在两种方法,一种是利用OCR识别技术,将资料文档转换成图像,经过版面分析,行字切分、文字识别,将结果输出;另一种方法是利用资料文档进行解析,提取文字信息,直接将结果输出。
但是,上述两种方法重在提取资料文档的文本,在实际使用中遇到以下问题:
资料文档的格式有很多,不同格式的文档只能用指定的阅读器打开,文字提取较为困难。
发明内容
为了克服上述问题或者至少部分地解决上述问题,本发明实施例提供一种基于关键词拆分技术的文档关键信息提取方法和系统。
本发明的实施例是这样实现的:
第一方面,本发明实施例提供一种基于关键词拆分技术的文档关键信息提取方法,包括:
获取目标文档并将目标文档转换成XML格式文档;
基于关键词拆分检测技术对XML格式文档进行关键信息提取。
通过获取目标文档并将目标文档转换成XML格式文档;XML为可扩展标记语言,是一种用于标记电子文件使其具有结构性的标记语言。因此将目标文档转换成XML格式文档,便于后续提取信息。基于关键词拆分检测技术对XML格式文档进行关键信息提取。该步骤中,可以从连续的自然语言文本中,抽取出结构化的关键字段信息。解决文档信息量大且过于繁杂、无法让用户快速获取需要的信息的问题。
基于第一方面,在本发明的一些实施例中,上述目标文档包括html文档、pdf文档和word文档。
获取目标文档并将目标文档转换成XML格式文档的步骤包括:
将Word文档、PDF文档、Html转换成XML格式文档。
基于第一方面,在本发明的一些实施例中,上述基于关键词拆分检测技术对XML格式文档进行关键信息提取的方法包括:基于关键词拆分检测技术对XML格式文档的关键字进行提取。
基于第一方面,在本发明的一些实施例中,基于关键词拆分检测技术对XML格式文档的关键字进行提取的方法包括:
由文章开头开始向后逐段扫描查询含有关键词或关键字的字样,对含有关键词或关键字的字样的段落进行标记得到标记的段落;
若标记的段落中关键词或关键字的字样在段首则判定为关键字段;
获取关键字段中的各关键词。
基于第一方面,在本发明的一些实施例中,上述基于关键词拆分检测技术对XML格式文档进行关键信息提取的方法包括:对XML格式文档的标题进行提取。
基于第一方面,在本发明的一些实施例中,对XML格式文档的标题进行提取的方法包括:
判断正文开始位置;
从正文开始位置向前搜索在预设字数内的小段落标记得到多个标记小段落;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南方电网调峰调频发电有限公司信息通信分公司,未经南方电网调峰调频发电有限公司信息通信分公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111052073.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种油田用防结蜡智能管道系统
- 下一篇:一种基于神经网络的文本定位技术