[发明专利]一种基于Transformer地震信号分类识别方法在审

申请号：	202310246159.0	申请日：	2023-03-15
公开（公告）号：	CN116304818A	公开（公告）日：	2023-06-23
发明（设计）人：	吴业正;黄汉明;何玉龙;诸广镭	申请（专利权）人：	广西师范大学
主分类号：	G06F18/24	分类号：	G06F18/24;G06F18/213;G06N3/08;G06F18/214;G06N3/0464
代理公司：	桂林市华杰专利商标事务所有限责任公司 45112	代理人：	周雯
地址：	541004 广西壮***	国省代码：	广西;45
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 transformer 地震信号分类识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于Transformer地震信号分类识别方法，其特征在于，包括如下步骤：

S1.数据获取：获取地震站台记录的三分量事件波形数据，其中三分量分别为东西分量、南北分量和垂直分量；将一个事件波形数据的三分量当作三个事件来进行识别，即把一个事件中的一个分量当作一个识别单元，以增加数据集的数量，使模型能学习到波形特征，具体实施过程包括以下两个处理：

S11：数据截取与去均值倾向：由于原始波形数据记录的时间长度不同，因此先对原始波形数据进行预处理，将原始波形截取相同的长度，原始波形数据中记录从P波初动到S波结束的时间相差较大，由几十秒至几百秒不等，为了充分将波形特征留在截取的长度范围内，截取时间为S波初动前的160秒开始，截取长度为327.68秒，采样频率为100H_Z，采样点为32768点，然后将数据通过差分法进行去除均值倾向，令h₀＝0，其运算公式为：

h_k＝d_k-d_k-1,k∈[1,n]；

S12：数据归一化：若不同地震信号数据幅值差距过大，同一地震信号站台距离震源的远近也会对幅值产生影响，为了确保地震信号数据在相同的离散程度下进行比较，帮助模型更快地收敛，需要对实验使用的地震信号数据进行归一化处理，采用最大最小值归一化方法，将地震信号数据放缩至[0,1]区间，最大最小值归一化公式为：

S2.构建主干网络：主干网络由地震波形数据进行特征提取，以学习地震信号的特征，然后对特征进行分类，主干网络主要由以下几步构成：

S21：构建自注意力模块：自注意力机制通过计算输入序列之间的相互影响，捕获全局上下文信息，对目标建立远距离依赖，解决传统注意力长距离依赖有限问题，注意力计算过程如下所示：

假设x_i，i∈(1,2,3,…,n)为输入样本的特征图，W^Q，W^k，W^V分别为生成q_i，k_i，v_i的模型权重系数，将x_i，i∈(1,2,3,…,n)分别与W^Q，W^k，W^V权重系数相乘得到q_i，k_i，v_i，i∈(1,2,3,…,n)，计算q_i与k_i之间的相关性，除以k矩阵维度的平方根使用SoftMax函数对结果进行计算，与对应的v_m相乘得到加权运算后特征图z_i，i∈(1,2,3,…,n)，计算公式为：

S22：构建多头自注意力模块：多头自注意力模块是将q_i，k_i，v_i整体看作一个头，通过多个不同的头来计算特征图中不同特征之间的相关性，将x_i与多组W^Q，W^k，W^V相乘得到q_i，k_i，v_i，i∈(1,2,3,…,n)，并进行自注意力计算，得到不同头的计算结果，不同头的计算结果进行拼接后输入全连接层进行线性变换得到最终结果，公式为：

z_hi＝Attention(QW_i^Q,QW_i^K,QW_i^V)

z₁＝Concat(z_h1,z_h2,z_h3)W^l；

S23：构建窗口式多头自注意力模块：通过特征图按照窗口大小为16划分为多个窗口，然后每个特征图窗口X与不同的权重矩阵W^Q，W^K，W^V相乘得到相应的查询向量Q、键向量K和值向量V，再对每个窗口进行多头自注意力的计算，计算结束后，将每个窗口特征图拼接成一个与划分窗口之前一样大小的特征图，然后基于构建出的窗口式多头自注意力模块构建滑动窗口多头自注意力模块，滑动窗口多头自注意力模块主要获取跨窗口信息；

S24：构建滑动窗口多头自注意力模块：滑动窗口多头自注意力机制是通过对窗口多头自注意力进行滑窗操作，即在特征图划分窗口之前，对特征数据做一个滚动操作，使不同窗口之间能够进行信息传递，获取长距离依赖，同时具有全局感受野。然后基于构建出的滑动窗口多头自注意力模块构建滑动窗口多头自注意力模块，滑动窗口多头自注意力模块主要获取跨窗口信息；

S25：构建空间置换滑动窗口多头自注意力模块：空间置换滑动窗口多头自注意力模块层采用了Swin Transformer网络结构中的滑动窗口多头注意力机制和ShuffleTransformer网络中的空间置换规则，在滑动窗口多头注意力机制即SW-MSA的前后对输入数据进行空间置换，不同的通道之间相互交换，使连续的两个窗口多头自注意力机制层的第二个窗口多头自注意力机制层能够接收来自不同窗口的输入，促进窗口间的信息交互；

S26：构建MLP模块：通过MLP模块对空间置换滑动窗口多头自注意力计算结果进行优化；

S27：构建总网络：总网络的第一层为卷积核大小为16，步长为16，通道数为12的卷积层，通过第一层的卷积层，将大小为32768×1震源信号分割成大小为2048×1的非重叠特征图，然后将得到的特征图输入到由窗口多头自注意力机制即W-MSA层和空间置换滑动窗口多头自注意力机制即SSW-MSA层组成的Transformer模块，提取特征图的全局信息，再将特征图输入合并层，对特征图进行间隔4个特征点采样，并拼接成一整个张量，尺寸缩小4倍，通道数升为4倍，再通过全连接层将通道数降为2倍，缩小特征图的尺寸大小，提升通道数，得到大小为512×24的特征图，W-MSA层和SSW-MSA层相比多头自注意力机制即MSA层，能减少计算力和内存需求，提升局部建模能力，然后再分别经过1个Transformer模块、1个合并层、1个W-MSA和SSW-MSA层，最后经过层归一化、全局池化和全连接层输出最终分类结果；

每个Transformer模块由窗口多头自注意力机制层和空间置换滑动窗口多头自注意力机制层组成，窗口多头自注意力机制层和空间置换滑动窗口多头自注意力机制层由层归一化、窗口多头自注意力机制、空间置换滑动窗口多头自注意力机制和多层感知机通过残差链接组成；具体过程可表示为：

x^l＝W-MSA(LN(z^l-1))+z^l-1,

z^l＝MLP(LN(x^l))+x^l,

y^l＝SSW-MSA(LN(z^l))+z^l,

z^l+1＝MLP(LN(y^l))+y^l,

其中x^l，y^l和z^l分别表示W-MSA模块、SSW-MSA模块和多层感知机模块的输出特征，当固定窗口多头自注意力机制的窗口大小为M后，假设多头自注意力有N个块数量，窗口式多头自注意力的每个窗口有M个块数量，则多头自注意力的和窗口多头自注意力计算复杂度为：

Ω(MSA)＝4NC²+2N²C

Ω(W-MSA)＝4NC²+2NMC

C表示通道数，当M小于N时，模型的训练速度和计算效率会有提升；当M固定时，基于窗口自注意力的计算复杂度随N线性增长；

S3.在训练阶段，采用使用RMSprop优化器对模型的参数权重进行优化；

S4.参数配准，训练模型；训练参数具体设置如下所示：

Batch_size＝64，epoch＝1000，Optimizer＝Adam，Learning_rate＝0.001。