[发明专利]用于设备缺陷分类的实现方法及系统有效
| 申请号: | 202110988404.6 | 申请日: | 2021-08-26 |
| 公开(公告)号: | CN113704470B | 公开(公告)日: | 2023-08-25 |
| 发明(设计)人: | 刘建华;孟禹;刘良洁;林涛 | 申请(专利权)人: | 佰聆数据股份有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35 |
| 代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 林梅繁 |
| 地址: | 510663 广东省广州市高新技术产业开*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 设备 缺陷 分类 实现 方法 系统 | ||
1.用于设备缺陷分类的实现方法,其特征在于,包括以下步骤:
步骤S1、获取文本数据,并对文本数据进行预处理,所获取的文本数据包括设备类别、缺陷描述信息和缺陷类型信息;
步骤S2、基于BERT模型对预处理后的文本数据进行训练,得到初始化BERT模型;
步骤S3、通过调整模型参数和修改样本标注数据对初始化BERT模型进行优化;
步骤S4、利用优化后的BERT模型对设备缺陷数据进行预测,得到设备缺陷分类结果;
步骤S5、基于约束规则对BERT模型预测后的结果进行二次优化,得到最终的分类结果。
2.根据权利要求1所述的实现方法,其特征在于,步骤S1包括:
S11、建立缺陷词库;
S12、将文本数据的内容按分隔符进行切分,切分后得到多个分段文本;
S13、判断切分后的各分段文本是否为有价值的内容描述;假如某分段文本不包含缺陷词库的描述,则该分段文本的内容被视为无价值的描述,将其舍弃;
S14、将有价值的分段文本重新组合,得到最终预处理后的文本数据。
3.根据权利要求1所述的实现方法,其特征在于,步骤S2包括:
S21、获取预处理后的文本数据,将缺陷类型信息按预设数量划分得到均匀分布的样本数据,将样本数据按比例分为训练集、验证集和测试集;
S22、将缺陷描述信息转换为BERT模型所需的特征向量,所述特征向量包括词向量、分段向量和位置向量;
S23、输入特征向量和相应的模型参数,用BERT模型对文本数据进行训练,得到文本数据的标签得分;
S24、根据设备类别和标签得分对分类结果进行优化;
S25、验证模型的准确率,并保存模型。
4.根据权利要求3所述的实现方法,其特征在于,步骤S4包括:
S401、获取原始数据,其数据字段包含设备类别、缺陷描述信息;
S402、读取缺陷词库,并将缺陷词库定义为一个集合P;
S403、读取缺陷描述信息转换后的特征向量,依据转换成向量的方法,把集合P的所有缺陷词库都转化为向量值;
S404、读取对文本数据预处理后需要预测的词语,对其进行向量化,定义集合Q;
S405、定义相关性算法,通过计算角度距离判断词语的相关性;
S406、针对需要预测的词语和缺陷词语进行逐个判断,找出相关性大的词语,然后通过反向溯源找到缺陷词语所在的句子;
S407、定义与出现在句子中的缺陷词库里的词语相关的词语作为相关词;
S408、根据相关词定义相关词的词库集合CP,并对词库集合CP进行向量化;
S409、针对句子拆分出来的词集合W,删除缺陷词库的集合P出现的词,把剩余的词与词库集合CP进行角度距离大小的计算;
S410、对某个句子,根据角度距离大小判断相关性,筛选出有接近相关性词语的词的句子;
S411、对缺陷词语的频度进行调查,统计出含有缺陷词语和相关性词语在一批句子中的频度。
5.根据权利要求4所述的实现方法,其特征在于,步骤S405的相关性算法计算如下:
式中P代表集合P里某个缺陷词的向量,Q代表集合Q里某个需要预测的词语的向量,β为P、Q两个向量的夹角。
6.根据权利要求4所述的实现方法,其特征在于,步骤S411中频度的统计方法为:
定义一个频度集合Z(Fi),设出现缺陷词语的句子条数为n,这些出现缺陷词语的句子中含有多个相关缺陷词语个数为L,相关词在全文中出现的次数为num,所统计的句子总条数为fnum,被标记为告警级别和以上级别的句子条数为T,定义公式如下:
其中,i=1,2,3,...,n,通过以上公式统计出含有缺陷和相关词语在一批句子中的频度Hertzi。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佰聆数据股份有限公司,未经佰聆数据股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110988404.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高效清洁液及其生产设备
- 下一篇:吡咯伯克霍尔德氏菌株及其应用





