[发明专利]一种基于语义挖掘的接触网文本数据缺陷识别方法及设备在审
| 申请号: | 202211595240.1 | 申请日: | 2022-12-13 |
| 公开(公告)号: | CN115994220A | 公开(公告)日: | 2023-04-21 |
| 发明(设计)人: | 蔡俊宇;陈可;王健;谢晨琳;杨佳;邓云川;林宗良;陈科;于龙;钟源;丁润;刘涛;鲁小兵;李默然;杨洋;邵岩;谭磊;刘习文;王彦哲;梁婧文;陈子文;朱晟颉;代玉林 | 申请(专利权)人: | 中铁二院工程集团有限责任公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06Q10/0635;G06Q50/06;G06Q50/26;G06N3/0464;G06N3/0455;G06N3/047;G06N3/08 |
| 代理公司: | 四川力久律师事务所 51221 | 代理人: | 曹露 |
| 地址: | 610031 *** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 语义 挖掘 接触 文本 数据 缺陷 识别 方法 设备 | ||
1.一种基于语义挖掘的接触网文本数据缺陷识别方法,其特征在于,包括:
获取原始接触网文本数据,对所述原始接触网文本数据进行预处理;
将预处理后的接触网文本数据输入至预先建立的文本挖掘-缺陷分类模型,利用所述预先建立的文本挖掘-缺陷分类模型生成接触网文本数据的缺陷类别;
其中,所述预先建立的文本挖掘-缺陷分类模型为:BERT-DTCN联合模型;其中,BERT子模型用于对预处理后的接触网文本数据进行语义挖掘,DTCN子模型用于对BERT子模型输出的语义挖掘文本进行缺陷分类。
2.根据权利要求1所述的基于语义挖掘的接触网文本数据缺陷识别方法,其特征在于,所述BERT子模型具有12层双向Transformer。
3.根据权利要求1所述的基于语义挖掘的接触网文本数据缺陷识别方法,其特征在于,所述DTCN子模型包括:嵌入层、等长卷积层、卷积堆叠层和全连接层。
4.根据权利要求3所述的基于语义挖掘的接触网文本数据缺陷识别方法,其特征在于,所述等长卷积层,包括:4层二维卷积核以及最大池化层;
所述二维卷积核之间采用Pre-activation残差连接。
5.根据权利要求4所述的基于语义挖掘的接触网文本数据缺陷识别方法,其特征在于,所述二维卷积核的核参数为3×1,stride为1,channel数为140。
6.根据权利要求4所述的基于语义挖掘的接触网文本数据缺陷识别方法,其特征在于,所述最大池化层的stride为2。
7.根据权利要求3所述的基于语义挖掘的接触网文本数据缺陷识别方法,其特征在于,所述卷积堆叠层,包括:1/2池化层,所述1/2池化层用于减少卷积计算量。
8.根据权利要求1~7任一所述的基于语义挖掘的接触网文本数据缺陷识别方法,其特征在于,通过以下方法预先建立所述文本挖掘-缺陷分类模型,包括:
建立初始BERT-DTCN联合模型;
从高速铁路供电段获取大量原始接触网缺陷文本数据,对所述原始接触网缺陷文本数据进行预处理,并基于规范文件对原始接触网缺陷文本数据进行缺陷文本标注与缺陷类别标注,得到训练样本数据集;
利用所述训练样本数据集对所述初始BERT-DTCN联合模型进行训练,以使所述初始BERT-DTCN联合模型满足条件收敛,得到所述文本挖掘-缺陷分类模型。
9.根据权利要求8所述的基于语义挖掘的接触网文本数据缺陷识别方法,其特征在于,所述对所述原始接触网文本数据进行预处理,包括:
删除所述原始接触网文本数据中的重复、错误及不完整数据,并将所述原始接触网文本数据进行词组向量表示。
10.一种电子设备,其特征在于,包括处理器、网络接口和存储器,所述处理器、所述网络接口和所述存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-9任一项所述的基于语义挖掘的接触网文本数据缺陷识别方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中铁二院工程集团有限责任公司,未经中铁二院工程集团有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211595240.1/1.html,转载请声明来源钻瓜专利网。





