[发明专利]一种电力调度文本的处理方法及系统在审
申请号: | 202010093154.5 | 申请日: | 2020-02-14 |
公开(公告)号: | CN111382227A | 公开(公告)日: | 2020-07-07 |
发明(设计)人: | 季晓慧;李晨;刘金波;狄方春 | 申请(专利权)人: | 中国地质大学(北京) |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F40/242;G06F40/289;G06Q10/06;G06Q50/06 |
代理公司: | 北京知呱呱知识产权代理有限公司 11577 | 代理人: | 盛明星 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 电力 调度 文本 处理 方法 系统 | ||
本发明实施例涉及一种电力调度文本的处理方法及系统,其中,所述方法包括:采集调度文本,并对所述调度文本进行分词处理,以得到所述调度文本对应的词汇集合;识别所述词汇集合中的频繁一项集,并基于所述频繁一项集构建频繁模式树;从所述频繁模式树中获取条件模式基,并基于所述条件模式基递归得到所述词汇集合中的频繁项集。本申请提供的技术方案,能够挖掘出调控人员在日常调度工作时的操作行为特征及调度习惯。
技术领域
本申请涉及数据处理技术领域,特别涉及一种电力调度文本的处理方法及系统。
背景技术
随着智能电网建设的开展,电力大数据呈现爆发式增长。这些电力数据中隐藏着关系到电网安全稳定运行的信息,成为电力领域宝贵的资产。然而由于计算能力和技术方法问题,电力领域的大数据每年只有很少的部分被挖掘。因此如何合理有效地挖掘电力大数据是目前电力领域面临的紧迫的问题。
电力数据类型众多,包括电力负荷数据和文本数据等。其中文本数据,因记载着调控人员操作行为特征及调度习惯而具有较高的挖掘价值和挖掘前景,因此电力文本挖掘是电力设备健康管理重点关注的关键技术之一。
当前自然语言处理、人工智能等技术快速发展,为电力文本挖掘提供了良好的技术基础;同时电网企业已积累了大量与电力设备健康相关的文本,如缺陷、消缺等短文本,以及试验、故障分析报告等长文本,具备了文本挖掘的数据条件。此外,电网企业已建立了诸多与设备健康相关的标准,如分别针对输变电设备和配电网设备的缺陷分类标准、设备状态评价导则、状态检修试验规程等,为文本挖掘的应用提供了参照与规则支持。因而,电力文本挖掘的条件已具备,且发展前景广阔。然而,由于现阶段知识和技术层面上的匮乏。
文本挖掘技术的大部分研究还处于探究试验阶段,应用效益尚未显现。与互联网、医学等行业取得的成就相比,电力行业的文本挖掘研究还有待加强,电力调度领域很多方向的文本挖掘还没有研究。目前还没有一种专门针对调控人员的日常在调度工作时的操作行为特征及调度习惯的挖掘方法。
综上所述,考虑到目前电力领域文本方法存在的问题,需要一种调度文本挖掘方法以解决上述问题。
发明内容
本申请的目的在于提供一种电力调度文本的处理方法及系统,能够挖掘出调控人员在日常调度工作时的操作行为特征及调度习惯。
为实现上述目的,本申请提供一种电力调度文本的处理方法,所述方法包括:采集调度文本,并对所述调度文本进行分词处理,以得到所述调度文本对应的词汇集合;识别所述词汇集合中的频繁一项集,并基于所述频繁一项集构建频繁模式树;从所述频繁模式树中获取条件模式基,并基于所述条件模式基递归得到所述词汇集合中的频繁项集。
进一步地,所述方法还包括:
检测分词处理结果中的停用词,并将检测得到的所述停用词从分词处理结果中剔除。
进一步地,基于所述频繁一项集构建频繁模式树包括:
扫描所述词汇集合,并统计各个频繁一项集支持度;
按照统计的支持度从各个所述频繁一项集中筛选出目标频繁一项集,并将所述目标频繁一项集放入项头表中,其中,所述项头表中的目标频繁一项集按照支持度降序排列;
在所述词汇集合中,将非频繁一项集的数据删除,并将剩余的数据按照频繁一项集的支持度降序排列;
读取排序后的数据,并将排序后的数据插入频繁模式树;其中,在所述频繁模式树中排序靠前的节点为祖先节点,排序靠后的节点为子孙节点。
进一步地,所述方法还包括:
若多个子孙节点共用同一个祖先节点,按照子孙节点的数量,增加共用的祖先节点的计数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(北京),未经中国地质大学(北京)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010093154.5/2.html,转载请声明来源钻瓜专利网。