[发明专利]一种并行化的电力设备缺陷文本分类方法在审
申请号: | 201711288010.X | 申请日: | 2017-12-07 |
公开(公告)号: | CN108021679A | 公开(公告)日: | 2018-05-11 |
发明(设计)人: | 杨祎;宇文梦柯;王智翔;白德盟;辜超;郭志红;陈玉峰;闫丹凤;李贞;林颖;李程启;秦佳峰;郑文杰;李娜 | 申请(专利权)人: | 国网山东省电力公司电力科学研究院;北京邮电大学;国家电网公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 张勇 |
地址: | 250003 *** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 并行 电力设备 缺陷 文本 分类 方法 | ||
本发明公开了一种并行化的电力设备缺陷文本分类方法,将领域词库加入到用户词典中,对缺陷案例进行预处理,进行分词和去停用词;利用爬虫算法,收集电网故障案例的文本语料,利用Spark的word2vec进行训练,获取该领域的词向量表示;将获取的缺陷案例和词向量进行向量化表示,将缺陷案例进行文本表示,形成矩阵;将矩阵输入到SVM多分类器中,进行训练与分类,得到分类结果。
技术领域
本发明涉及一种并行化的电力设备缺陷文本分类方法。
背景技术
文本分类算法主要包含预处理、文本特征抽取、文本表示、分类计算这四个步骤。其中中文文本的预处理步骤主要包含分词、去停用词;文本特征抽取主要有tfidf、textrank为代表的基于词频统计的方法和lda为代表的基于主题模型的方法;文本表示主要有不考虑上下文语境的one-hot方式和基于word2vec的方式;最后的分类步骤对于一般的分类挖掘算法均可纳入考虑。在特定领域的文本分类任务中,主要需考虑的问题就是结合领域的语言和专业的特点,在预处理、特征抽取等步骤进行相应的算法调整。文本分类过程中还需要根据分类对象的规模特点进行相应的算法改进,通常情况下,对于长文本可以直接使用上述流程进行分类,且分类效果一般会好于短文本,主要是因为长文本的信息含量较为充足,相比而言,短文本在分类过程中直接使用上述流程,会导致短文本本就贫乏的特征有所损失,因此通常会考虑只进行停用词的过滤,而不再通过tfidf等算法进一步的进行关键词的筛选。
在电力缺陷文本中,对于缺陷的严重程度的分类,在以往都是人工根据经验对缺陷描述进行判断,手动分类为“严重”、“一般”、“危急”三个类别,这样不仅会造成大量的人工劳动成本,还会因为不同人的主观认知差异造成判断结果的不同。因此,借助于文本分类算法进行自动的文本分类计算是十分有意义的,但是在电力领域缺陷案例分类方面目前还鲜有研究。
一般的分词步骤都是基于一个默认词库进行的,这对于通用的公共领域文本可以做到较为准确的分词,但是对于该情景的文本对象,仅仅利用默认词库难以得到理想的结果,需要将领域性考虑进去,在ansj的默认词典中加入电力行业的专业词库,精准的分词是准确训练出word2vec的重要前提。
同样,一般的word2vec都是根据通用语料库进行训练的,而该发明针对的文本对象有很强的专业性,因此需要对于该领域首先收集大量的文本,进行word2vec词向量表示的训练。之后在用此训练结果基础上,考虑对于后续的文本进行表示。
由于该流程是建立在Spark并行框架上的,以期达到对于大数据输入形式的高效计算,而该平台mllib中的SVM分类算法包是一个二分类器,难以对于该情景遇到的多分类场景进行处理。
发明内容
本发明为了解决上述问题,提出了一种并行化的电力设备缺陷文本分类方法,本发明解决对于具有很强专业性的电力缺陷案例文本进行缺陷紧急程度的分类,直接使用传统的分析流程难以得到满意的分类结果,且当数据量大时,能够通过Spark并行框架高效的完成分析流程,做到大数据规模的分类分析。
为了实现上述目的,本发明采用如下技术方案:
一种并行化的电力设备缺陷文本分类方法,包括以下步骤:
(1)将领域词库加入到用户词典中,对缺陷案例进行预处理,进行分词和去停用词;
(2)利用爬虫算法,收集电网故障案例的文本语料,利用Spark的word2vec进行训练,获取该领域的词向量表示;
(3)将步骤(1)得到的原始缺陷案例中的词语转化为步骤(2)对应的词向量,并将案例数据进行文本表示,构成矩阵的形式;
(4)将矩阵输入到SVM多分类器中,进行训练与分类,得到分类结果。
进一步的,所述步骤(1)和步骤(2)的顺序互换。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网山东省电力公司电力科学研究院;北京邮电大学;国家电网公司,未经国网山东省电力公司电力科学研究院;北京邮电大学;国家电网公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711288010.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种降噪系统
- 下一篇:一种视频文件缩略图的生成方法及系统