[发明专利]一种BERT融合胶囊网络的电梯故障投诉文本分类方法在审
申请号: | 202210532499.5 | 申请日: | 2022-05-10 |
公开(公告)号: | CN114819999A | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 周娟;吴宗欢;王强 | 申请(专利权)人: | 中国计量大学 |
主分类号: | G06Q30/00 | 分类号: | G06Q30/00;G06N3/08;G06N3/04;G06K9/62;G06F40/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 310018 *** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 bert 融合 胶囊 网络 电梯 故障 投诉 文本 分类 方法 | ||
1.一种BERT融合胶囊网络的电梯故障投诉文本分类方法,其特征在于,包括以下步骤:
步骤1:准备和处理数据集,首先收集并整理电梯用户投诉文本内容,投诉文本大都是100字以内的中文短文本,投诉内容为用户在使用电梯过程中碰到的问题或故障,这些给用户带来不好的体验或对用户的生命健康和财产安全产生威胁或伤害。不同用户有不同的语言习惯,有的有强烈情感因素,有的语言逻辑混乱,有的内容模糊,其中也包括一些恶意或错误的投诉。在整理数据集时先剔除恶意或错误的投诉;然后对样本进行预处理,一个样本就是一个句子,设置句子的最大长度,每个句子要以[CLS]开头,以[SEP]结尾,不足最大长度的以[PAD]进行填充,这样的形式是为了能正确输入到BERT模型中;最后确定电梯故障类型,用户投诉的故障类型共计9种,分别是开关门不正常、电梯运行异响、操作按钮失灵、其他、电梯运行抖动、电梯管理差、运行中出现下坠情况、紧急呼叫按钮无人接听和使用登记标记超期,给故障类型进行编号,样本与故障类型一一对应;
步骤2:BERT文本句向量表示,将处理后的样本输入到BERT模型中生成最终的句向量;
步骤3:数据集的采样与划分,经过BERT文本句向量表示后的数据集,一个句向量表示一个用户的投诉样本,利用过采样与欠采样结合的混合采样方式解决数据类别分布不均衡的问题;将采样后的数据集以7:1:2的比例随机划分为训练集、验证集和测试集,训练集和验证集用于训练本发明建立的BERT融合胶囊网络(BERT-CapsNet)的电梯故障投诉文本分类模型,测试集用于评估BERT-CapsNet投诉文本分类模型的性能;
步骤4:构建胶囊网络(capsule network,CapsNet)结构,设置各项参数;
步骤5:利用训练集和验证集训练建立好的胶囊网络,计算损失函数(误差),利用误差反向传播来更新CapsNet网络权重,得到性能较好的BERT-CapsNet投诉文本分类模型;
步骤6:利用测试集评估BERT-CapsNet模型的投诉文本分类性能,评价分类性能的指标通常有准确率A、精确率P、召回率R和F值等,假设共有M种故障类型,nij表示把真实类型i预测为类型j的样本个数,评价指标计算公式如下:
Fi=2PiRi/(Pi+Ri) (4)
本发明取准确率和Macro F1为模型分类性能的评价指标。
2.根据权利要求1所述的一种BERT融合胶囊网络的电梯故障投诉文本分类方法,其特征在于,所述步骤2中BERT文本句向量表示,采用的是BERT-Base-Chinese模型(Chinese_L-21_H-768_A-12),模型具有12层Transformer层,隐含层具有768个结点,12头注意力机制,取最后一层transformer层的第一个Token也就是[CLS]对应的向量作为BERT输出的句向量(维度为768),将此句向量输入到线性层并经过Tanh函数激活最终得到维度为100的句向量,该句向量就代表对应投诉文本的语义信息。
3.根据权利要求1所述的一种BERT融合胶囊网络的电梯故障投诉文本分类方法,其特征在于,所述步骤3中数据集的混合采样方法,采样步骤如下:
(1)统计数据集中每种故障类型对应的样本量,假设经过处理后的电梯故障投诉数据集共有M种故障类型,Ni表示类型i采样前的样本量;
(2)确定各故障类型的采样方式,Nmean表示采样前总样本量的均值,若Ni大于Nmean则采取欠采样方式,采样标记为0,反之采取过采样方式,采样标记为1;
(3)确定各故障类型采样后的理论样本量,对于需要欠采样的故障类型进行随机采样,对于需要过采样的故障类型进行SMOTE(Synthetic Minority Oversampling Technique,SMOTE)采样,各故障类型采样后的理论样本量如式(6)所示:
N_newi表示类型i采样后的样本量,a表示采样平衡系数,此处取a=0.5。
4.根据权利要求1所述的一种BERT融合胶囊网络的电梯故障投诉文本分类方法,其特征在于,所述步骤5中损失函数计算方法,由于胶囊网络允许多个分类同时存在,故采用间隔损失(margin loss)函数,间隔损失表示为:
Li=Ti·max(0,m+-||vi||)2+λ(1-Ti)max(0,||vi||-m-)2 (7)
式(7)中vi表示类别i的输出向量,Li表示类别i的损失,Ti是分类的指示函数(存在为1,不存在为0);m+为上界,惩罚假阳性;m-为下界,惩罚假阴性;λ是比例系数,调整两者比重,本发明取m+=0.9,m-=0.1,λ=0.5;
重构是用预测的类别构造出该类别的实际数据,重构损失计算方法为胶囊层后构造出3层全连接层,得到重构后的输出数据;将原数据与输出数据距离平方和作为损失值,总体损失=间隔损失+α·重构损失,本发明取α=0.01。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国计量大学,未经中国计量大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210532499.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种抗磨损渗碳起重链条的加工方法
- 下一篇:一种一体式管道光学传感器