[发明专利]一种基于语义挖掘的接触网文本数据缺陷识别方法及设备在审
| 申请号: | 202211595240.1 | 申请日: | 2022-12-13 |
| 公开(公告)号: | CN115994220A | 公开(公告)日: | 2023-04-21 |
| 发明(设计)人: | 蔡俊宇;陈可;王健;谢晨琳;杨佳;邓云川;林宗良;陈科;于龙;钟源;丁润;刘涛;鲁小兵;李默然;杨洋;邵岩;谭磊;刘习文;王彦哲;梁婧文;陈子文;朱晟颉;代玉林 | 申请(专利权)人: | 中铁二院工程集团有限责任公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06Q10/0635;G06Q50/06;G06Q50/26;G06N3/0464;G06N3/0455;G06N3/047;G06N3/08 |
| 代理公司: | 四川力久律师事务所 51221 | 代理人: | 曹露 |
| 地址: | 610031 *** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 语义 挖掘 接触 文本 数据 缺陷 识别 方法 设备 | ||
本发明公开了一种基于语义挖掘的接触网文本数据缺陷识别方法及设备,包括:获取原始接触网文本数据,对原始接触网文本数据进行预处理;将预处理后的接触网文本数据输入至预先建立的文本挖掘‑缺陷分类模型,利用预先建立的文本挖掘‑缺陷分类模型生成接触网文本数据的缺陷类别;其中,预先建立的文本挖掘‑缺陷分类模型为:BERT‑DTCN联合模型;其中,BERT子模型用于对预处理后的接触网文本数据进行语义挖掘,DTCN子模型用于对BERT子模型输出的语义挖掘文本进行缺陷分类。本发明针对接触网文本数据,设计相应的语义挖掘模型与缺陷分类模型,基于语义挖掘模型高效、准确地挖掘缺陷记录中包含的缺陷知识,同时配合缺陷分类模型确定缺陷严重程度识别。
技术领域
本发明涉及铁路接触网缺陷识别技术领域,涉及一种基于语义挖掘的接触网文本数据缺陷识别方法及设备。
背景技术
高速铁路接触网是高速列车能量传输的关键,其运行状况与铁路运输的安全性和可靠性密切相关。由于复杂的故障机制和多变的运行工况,接触网运行风险极高。为了及时发现潜在的缺陷并进行消缺,各种监测技术和维护活动被广泛应用于接触网运行和维护;例如:申请号为2020102694120公开的基于人工智能技术对铁路的接触网图像进行缺陷识别监测的方法。
进一步,基于相应的监测结果,接触网运维部门积累了大量接触网缺陷记录,这些缺陷记录蕴含了丰富的接触网缺陷问题、消缺方法、原因等缺陷关键特征。但是现有的缺陷记录通常由人工进行统计整合,通过统计整合确定缺陷文本描述,并依据规范文件进行人工分类,相应的文本统计整合工作存在准确度不高、文本信息利用率低、效率低下、成本较高等缺陷,因此,如何能够高效挖掘缺陷记录中包含的信息并进行准确分类、以提高缺陷记录的分析价值成为急需解决的问题。
发明内容
本发明的目的在于克服现有接触网缺陷记录由人工进行记录、统计、整合分类,存在准确度不高、文本信息利用率低、效率低下的问题,提供一种基于语义挖掘的接触网文本数据缺陷识别方法及设备,本方法针对接触网文本数据,设计相应的语义挖掘模型与缺陷分类模型,基于语义挖掘模型高效、准确地挖掘缺陷记录中包含的缺陷知识,同时配合缺陷分类模型自动识别缺陷的严重程度,从而为发现有价值的缺陷知识和缺陷严重程度识别提供强大可靠的信息基础,促进铁路接触网相关缺陷处理和维护监测技术的调整。
为了实现上述发明目的,本发明提供了以下技术方案:
一种基于语义挖掘的接触网文本数据缺陷识别方法,包括:
获取原始接触网文本数据,对所述原始接触网文本数据进行预处理;
将预处理后的接触网文本数据输入至预先建立的文本挖掘-缺陷分类模型,利用所述预先建立的文本挖掘-缺陷分类模型生成接触网文本数据的缺陷类别;
其中,所述预先建立的文本挖掘-缺陷分类模型为:BERT-DTCN联合模型;其中。BERT子模型用于对预处理后的接触网文本数据进行语义挖掘,DTCN子模型用于对BERT子模型输出的语义挖掘文本进行缺陷分类。
根据一种具体的实施方式,上述基于语义挖掘的接触网文本数据缺陷识别方法中,所述BERT子模型具有12层双向Transformer。
根据一种具体的实施方式,上述基于语义挖掘的接触网文本数据缺陷识别方法中,所述DTCN子模型包括:嵌入层、等长卷积层、卷积堆叠层和全连接层。
根据一种具体的实施方式,上述基于语义挖掘的接触网文本数据缺陷识别方法中,所述等长卷积层,包括:4层二维卷积核以及最大池化层;
所述二维卷积核之间采用Pre-activation残差连接。
根据一种具体的实施方式,上述基于语义挖掘的接触网文本数据缺陷识别方法中,所述二维卷积核的核参数为3×1,stride为1,channel数为140。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中铁二院工程集团有限责任公司,未经中铁二院工程集团有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211595240.1/2.html,转载请声明来源钻瓜专利网。





