[发明专利]一种对工业事故记录文本进行挖掘的方法在审
申请号: | 201911106089.9 | 申请日: | 2019-11-13 |
公开(公告)号: | CN110851603A | 公开(公告)日: | 2020-02-28 |
发明(设计)人: | 徐九韵;郝壮远 | 申请(专利权)人: | 中国石油大学(华东) |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 266580 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 工业 事故 记录 文本 进行 挖掘 方法 | ||
本发明结合目前已有的自然语言算法与设计出一种高性能,高准确率的适合于工业事故事件分析的文本挖掘算法。使用了目前自然语言处理领域最先进的成果。该方法针对工业领域事故数据设计,能够充分发掘数据的潜在价值,同时节省大量的人力成本。
背景技术
随着社会的发展与人民生活水平的提高,安全问题已经引起了越来越多的重视。为了防止同类型事故的多次发生、科学的指导安全工作的进行并有针对性的加强薄弱环节的安全防护,对历史上发生过的事故事件进行分析就变得至关重要。事故事件的记录信息中隐藏着本行业事故事件发生的规律。对事故事件记录进行合理的挖掘可以洞悉工业事故的原因,有针对性的进行防治。进入二十世纪以来,各行各业已经积累了大量的事故事件记录。但这些数据大多是非结构化的文本数据,无法直接用来进行统计分析。而靠人工来对百万级别的数据进行标注的成本过于庞大并不切实际。幸运的是近年来自然语言处理技术迅猛发展,许多知名公司与高校都发布了许多高性能的自然语言处理算法。本发明结合目前已有的自然语言算法与设计出一种高性能,高准确率的适合于工业事故事件分析的文本挖掘算法。
发明内容
本发明结合目前已有的自然语言算法与设计出一种高性能,高准确率的适合于工业事故事件分析的文本挖掘算法。使用了目前自然语言处理领域最先进的成果。该方法针对工业领域事故数据设计,能够充分发掘数据的潜在价值,同时节省大量的人力成本。
附图说明
图1是本发明的工作流程图。
图2是本发明的程序运行图。
具体实施方式
我们使用了目前最先进自然语处理技术对四十万条石油行业的事故事件数据进行了深度分析挖掘。原始数据以excel表格的形式存储,并存在大量的空字段。
A.数据预处理:首先从四十万条数据中选取三千条进行人工标注以获得训练连数据集。首先需要对其进行数据清理,去掉其中的空字段与特殊字符。
这样就得到了训练样本。
B.使用BERT-BiLSTM-CRF-NER训练命名实体识别模型:BERT的全称是(Bidirectional Encoder Representations from Transformers)是谷歌开源的一种新的预训练词向量的方法,它在各种下游的自然语言处理任务中都取得了目前最好的成绩。在本文中,我们结合使用谷歌开源的中文预训练BERT模型与双向的LSTM模型进行命名实体识别任务。从事故事件文本中提取出'事故类别','生产作业环节','生产作业环节子分类','生产阶段','工程技术服务(钻井作业)','人员疲劳','风险屏障','原因因素','管理因素'等实体信息。
C.使用Stanfordcorenlp进行命名实体识别:Stanfordcorenlp是由斯坦福大学开源的一套JavaNLP工具,提供诸如:词性标注(part-of-speech(POS)tagger)、命名实体识别(named entityrecognizer(NER))、情感分析(sentiment analysis)等功能。Stanfordcorenlp本身可对文本中的机构名称,设施名称与事故类别进行识别,这与本文的研究内容高度契合。并且,经过多次实验发现Stanfordcorenlp对现有事故事件记录中的事故类别的识别准确率达到了百分之八十以上。故在采用自训练的BERT-BiLSTM-CRF-NER命名实体是识别模型的同时,采用Stanfordcorenlp作为补充提高识别准确率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911106089.9/2.html,转载请声明来源钻瓜专利网。