[发明专利]一种基于主动学习的电力预案文本标注方法在审
申请号: | 202010891711.8 | 申请日: | 2020-08-28 |
公开(公告)号: | CN112232063A | 公开(公告)日: | 2021-01-15 |
发明(设计)人: | 杨群;袁鑫;刘绍翰 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/289;G06K9/62;G06N3/04;G06N3/08;G06Q50/06 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 211106 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 主动 学习 电力 预案 文本 标注 方法 | ||
本发明公开一种基于主动学习的电力预案文本标注方法。方法包括:针对电力预案文本的预聚类方法,用于将原始电力预案文本数据进行分类,使类中数据呈现语句结构和字词上的相似性;针对电力预案文本序列标注的主动学习样本选择策略,策略参考样本的信息性和代表性,可用于迭代时挑选出最合适的样本交予人工标注并加入训练集,以最大化提升模型的性能;针对电力预案文本序列标注的神经网络预测结果结构化输出方法,可结构化输出模型对文本的预测标签和各标签的概率,该概率可用于挑选新样本。采用本发明后只需使用一半的数据集即可达成与使用完整数据集一样的模型训练效果,减少了标注数据所需的人力物力。
技术领域
本发明涉及自然语言处理、深度学习以及主动学习领域,特别是涉及一种针对电力预案分析的文本序列标注技术。
背景技术
传统的电网调度系统依赖于管制员的主观决策,工作强度大,对调度员可靠性要求高。与调度员相比,计算机的运行速度快、实时性高、存储容量大、可靠性高。而调度员所能够承担的工作强度小、持续时间短、反应速度慢、记忆容量有限,效率不稳定,可靠性易受环境影响。电力系统的迅速发展,使得调度员的工作强度变大、工作时间延长,从而导致调度员工作疲劳,容易发出不当调度指令。如果通过机器辅助调度员进行管理,将有效提高系统的性能和可靠性,这对减少安全事故具有重大和迫切的现实意义。
现有调度自动化系统中沉淀着大量的告警信息、事故报告以及设备状态信息。研究人员围绕这些信息开展数据分析,通常是采用统计分析、遗传算法等传统人工智能方法的方法。基于大数据的深度学习最近在人工智能领域取得重大突破,并在语音识别、自然语言处理、计算机视觉等诸多领域取得了巨大成功。采用模式识别和机器学习算法,结合文本聚类或者文本分类算法,使得从多角度和多粒度上分析电网故障事件之间的关联关系成为可能。
电力预案是根据以往在电网运行中发生故障后调度员的处理经验而编制的故障处置手册。为有效管理和利用预案,首先需要将预案文本中包含的我们感兴趣的信息,例如地名、故障和处置方式等,提取出来,再进一步存储、分析和利用。抽取一段文本序列感兴趣的信息属于自然语言处理中序列标注问题。
序列标注模型需要大量预标注的数据用于训练,然而,由于电力预案文本数据规模很大且高度专业化,人工标注需要具备丰富的领域知识且工作量巨大。主动学习是一种快速训练模型的方法,只使用少量样本即可达成与大量样本相同的标注模型训练效果。因此,本发明即能找到当前最具代表性和信息性的训练数据用于训练标注模型,提高标注效率。该方法主要分为选择模块和学习模块,选择模块的目的是找出当前最具代表性和信息性的训练数据,学习模块则是通过选择模块选出的数据不断提高分类器的分类准确性和鲁棒性。目前主动学习已在命名实体识别、社交媒体数据、空间数据标注、图像分类等方向取得了良好的成效。
发明内容
1、一种基于主动学习的电力预案文本标注方法,其特征在于,所述主动学习方法包括:
对获取到的电力预案文本进行预聚类;
从聚类后的数据中选择出待标注的样本;
将神经网络模型对数据的预测结果进行结构化输出;
2、根据权利要求1所述的基于主动学习的电力预案文本标注方法,其特征在于,针对电力预案文本数据的预聚类技术,具体包括:
通过专家人工整理,挑选出电力领域专有词汇,建立电力预案数据专属词典;
根据专属词典生成文本数据的特征向量;
将特征向量作为聚类算法的输入,进行聚类。
3、根据权利要求1所述的基于主动学习的电力预案文本标注方法,其特征在于,针对电力预案文本的主动学习的样本迭代策略,具体包括:
依照词袋最大化的标准,在聚类后得到的各簇中等比例的抽样选择出最初的种子集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010891711.8/2.html,转载请声明来源钻瓜专利网。