[发明专利]基于语义分析的电网调控非结构化表格数据提取处理方法、装置及存储介质在审
申请号: | 202111489729.6 | 申请日: | 2021-12-08 |
公开(公告)号: | CN114386427A | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 马晓伟;褚云龙;王智伟;刘鑫;王文倬;原博;李武璟;李秋芳;陈前昌;张启文;徐海超;张楷;王波;王天禄;吴自博;陈清;李根;郑鑫;李雷 | 申请(专利权)人: | 国家电网有限公司西北分部;国电南瑞南京控制系统有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/205;G06N3/04;G06N3/08;G06Q50/06 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林 |
地址: | 710048 陕西*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 分析 电网 调控 结构 表格 数据 提取 处理 方法 装置 存储 介质 | ||
1.一种基于语义分析的电网调控非结构化表格数据提取处理方法,其特征在于,包括:
获取电网非结构化的原始表格文本并进行预处理;
通过预构建的语义识别模型对预处理后的原始表格文本进行自动标注;
基于标注结果解析预处理后的原始表格文本中的数据;
将解析结果整理入预设的结构化表格中生成结构化的表格文本。
2.根据权利要求1所述的一种基于语义分析的电网调控非结构化表格数据提取处理方法,其特征在于,所述预处理包括:
基于预构建的停止词字典去除原始表格文本中的无意义符号和文字,并将原始表格文本的表格格式进行简化处理;所述停止词字典基于人工使用归纳总结构建语义识别模块。
3.根据权利要求1所述的一种基于语义分析的电网调控非结构化表格数据提取处理方法,其特征在于,所述语义识别模型的构建过程为:
基于电网调度系统的数据库抽取文本中特征句子,并通过人工对特征句子中的特征信息进行标注得到文本语料库;
基于电网调度系统的数据库获取设备数据,并对设备数据进行整理得到带设备关系库;
通过设备关系库对文本语料库进行扩充生成数据集,并将数据集划分为训练集和验证集;
将训练集输入初始化的Bi-LSTM神经网络得到预测输出;
根据预测输出和验证集计算Bi-LSTM神经网络的网络损失,并基于网络损失进行反向传播迭代训练更新网络参数,直至网络损失收敛;
将更新后的网络参数带入Bi-LSTM神经网络生成语义识别模型。
其中,所述文本包括运行管理规定、反事故预案和计划检修信息;所述特征信息包括电网实体和属性信息;所述设备数据包括设备名称和设备属性。
4.一种基于语义分析的电网调控非结构化表格数据提取处理装置,其特征在于,所述装置包括
数据获取模块,用于获取电网非结构化的原始表格文本并进行预处理;
数据标注模块,用于通过预构建的语义识别模型对预处理后的原始表格文本进行自动标注;
数据解析模块,用于基于标注结果解析预处理后的原始表格文本中的数据;
数据生成模块,用于将解析结果整理入预设的结构化表格中生成结构化的表格文本。
5.一种基于语义分析的电网调控非结构化表格数据提取处理装置,其特征在于,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据权利要求1-3任一项所述方法的步骤。
6.计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-3任一项所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家电网有限公司西北分部;国电南瑞南京控制系统有限公司,未经国家电网有限公司西北分部;国电南瑞南京控制系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111489729.6/1.html,转载请声明来源钻瓜专利网。