[发明专利]文本关键要素抽取方法、系统、存储介质和电子设备在审
| 申请号: | 202211474805.0 | 申请日: | 2022-11-23 |
| 公开(公告)号: | CN115730602A | 公开(公告)日: | 2023-03-03 |
| 发明(设计)人: | 李璇;黄宏斌;刘丽华;王懋;毕于慧;柯文俊;杨小琳 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/35;G06F18/214 |
| 代理公司: | 北京墨丘知识产权代理事务所(普通合伙) 11878 | 代理人: | 魏梳芳 |
| 地址: | 410073 湖南*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 关键 要素 抽取 方法 系统 存储 介质 电子设备 | ||
本发明提供一种文本关键要素抽取方法、系统、存储介质和电子设备,涉及文本信息抽取技术领域。本发明基于所述人工标注的文档样本、未标注的非结构化文档和知识库构建领域标签库;根据所述领域标签库对所述未标注的非结构化文档进行文档重打标,通过重新打标的非结构化文档对预先构建的深度学习模型进行训练,得到命名实体识别模型。本发明充分利用已有知识库,从中挖掘有效信息提升关键要素抽取准确率,同时,在完成领域标签库构建后,利用所构建的领域标签库对未标注的非结构化文档进行自动标注,获得大量的标注文档,为后续的模型提供数据支撑,进一步提高命名实体识别模型的准确率,从而提高文本中关键信息要素抽取的准确率。
技术领域
本发明涉及文本信息抽取技术领域,具体涉及一种文本关键要素抽取方法、系统、存储介质和电子设备。
背景技术
随着信息技术的发展以及电子设备的普及,大量网络终端设备产生了海量的电子文档,这些电子文档中包含了大量的关键信息以及隐藏信息。针对当下信息过载、信息冗余等困境,如何应用人工智能手段从文档中抽取关键要素,从而帮助用户快速、准确地获取所关注的核心、关键、重要内容,成为了信息检索领域所面临的重大问题。
现有的对文本中的关键要素进行识别方法主要包括:基于知识库的检索式方法以及基于文本的抽取式方法。其中基于知识库的检索式方法,可以对文本中存在于知识库中的内容进行检索,进而提取文本中的关键信息,但是这类方法严重依赖于所建立的知识库,对于知识库中未包含的有效信息无法提取,泛化能力较差,导致准确率低。基于文本的抽取式方法通过利用已标注数据,通过学习文本中的语法模式,识别其中关键信息,该类方法虽然泛化能力较强,但无法利用已有知识,且严重依赖于人工标注的数据,导致资源的浪费并具有较高的成本,同时,当人工标注的数据不足,或者存在缺陷时,其准确率也会受到影响。
通过上述描述可知,现有的文本关键要素抽取方法准确率较低。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种文本关键要素抽取方法、系统、存储介质和电子设备,解决了现有的文本关键要素抽取方法准确率较低的技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
第一方面,本发明提供一种文本关键要素抽取方法,包括:
S1、获取人工标注的文档样本、未标注的非结构化文档和知识库,基于所述人工标注的文档样本、未标注的非结构化文档和知识库构建领域标签库;
S2、根据所述领域标签库对所述未标注的非结构化文档进行文档重打标,得到重新打标的非结构化文档;
S3、基于所述重新打标的非结构化文档对预先构建的深度学习模型进行训练,得到命名实体识别模型,所述命名实体识别模型用于识别文本中的命名实体,根据对命名实体识别结果进行文本关键要素提取。
优选的,所述S1包括:
S101、基于人工标注的文档样本获取非结构化文档的标注信息词汇库;
S102、基于规则挖掘未标注的非结构化文档的领域词汇,构建抽取领域词汇库;
S103、融合标注信息词汇库、抽取领域词汇库和知识库,得到领域标签库。
优选的,所述S101包括:
S101a、获取人工标注的文档样本,提取并汇总各个文档样本中的标注信息,得到初始标签集合;
S101b、对初始标签集合进行问题检测处理,形成候选序列;
S101c、获取候选序列的人工校验信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211474805.0/2.html,转载请声明来源钻瓜专利网。





