[发明专利]基于文本分类与语义框架的电力预案信息抽取方法在审
申请号: | 202010891712.2 | 申请日: | 2020-08-28 |
公开(公告)号: | CN112036179A | 公开(公告)日: | 2020-12-04 |
发明(设计)人: | 杨群;郭榕;刘绍翰 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F40/253;G06K9/62;G06N3/04;G06N3/08;G06Q50/06 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 211106 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 文本 分类 语义 框架 电力 预案 信息 抽取 方法 | ||
本发明公开一种基于文本分类与语义框架的电力预案信息抽取方法。方法包括:获取电力预案文本并做文本类别标注;针对电力预案文本的预处理;针对电力预案文本的文本分类模型与训练方法;针对不同类别的电力预案文本,定义不同语义槽;针对不同类别的电力预案文本,构建不同的语义框架进行信息抽取。本发明首先对电力预案文本进行分类,在分类的基础上为每类文本构建相应语义框架,将信息抽取任务转化为槽填充任务,解决了从大量半结构化和非结构化的电力预案文本中抽取信息的问题,能有效地提高电力预案文本的信息抽取效率与准确度,可以减少进行信息抽取所需要的人工劳动,对电力事故后电网快速恢复具有重大和迫切的现实意义。
技术领域
本发明涉及自然语言处理以及深度学习领域,特别是涉及一种针对电力预案的信息抽取方法。
背景技术
电力预案的编写旨在防止和减少电力事故对社会的影响,保证电力事故应急工作高效、有序地进行,提高电力事故应急处理能力,最大限度地减少事故中的人员伤亡和财产损失。在电网发生故障时,电网调度系统运行变得紧张,通过人工查阅的方式从半结构或非结构的电力预案文本获取处置信息,不仅效率低下而且将使调度员的工作强度变大,容易发出不当调度指令,不利于电力事故应急工作的有效进行。因此,需要事先将电力预案文本中的信息进行抽取并存储,在电网发生故障时通过信息检索快速地找到相应的处置动作,这对电力事故后电网快速恢复具有重大和迫切的现实意义。然而,目前电力预案信息的抽取工作往往依靠人工进行,不仅需要投入大量的人力,费时费力,而且对人员的专业知识有很高的要求。此外,由于主观因素和经验差异,信息抽取工作的正确性、规范性难以保证。
发明内容
本发明为了解决上述问题,提供一种基于文本分类与语义框架的电力预案信息抽取方法,可以代替人工进行电力预案信息抽取,并提高电力预案文本信息抽取的效率与准确度。所述方法包括:
101.获取电力预案文本并做文本类别标注。
102.针对电力预案文本的预处理方法;所述的预处理包括:长句切分,分词与词性标注。
103.针对电力预案文本的文本分类模型与训练方法;将已标注类别的电力预案文本作为训练集微调BERT预训练模型获得所述文本的特征向量,利用获得的特征向量训练Softmax回归模型得到电力预案文本分类的模型。
104.针对不同类别的电力预案文本,定义不同的语义槽;把待抽取的信息定义为语义槽,将信息抽取任务转换为槽填充任务,并根据各类别文本所需抽取的不同信息,定义不同的语义槽sj。
105.针对不同类别的电力预案文本,构建不同的语义框架进行信息抽取;将步骤104中定义的语义槽组成语义框架fi={sj},利用文本搜索和正则匹配的方法,填充框架中的语义槽。
进一步的,所述的基于文本分类与语义框架的电力预案信息抽取方法,其特征在于针对电力预案文本的预处理方法,具体包括:
总结预案文本的句式结构特点并建立长文本切分标志集,据此编写针对电力预案文本的分句规则将预案文本中的长句切分为多个短句;
从大量电力预案中先以规则总结辅以专家人工校正建立专业词典,通过导入电力预案专业词典,进行分词与词性标注。
进一步的,所述的基于文本分类与语义框架的电力预案信息抽取方法,其特征在于针对电力预案文本的文本分类模型与训练方法,具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010891712.2/2.html,转载请声明来源钻瓜专利网。