[发明专利]一种工程材料类别智能识别方法有效
申请号: | 201710554907.6 | 申请日: | 2017-07-10 |
公开(公告)号: | CN107480126B | 公开(公告)日: | 2021-04-13 |
发明(设计)人: | 尹绍青;查世伟;李惠君;陈宁;王云祥;黄宁;胡焱;陈玉辉;黄文妙;钟琳 | 申请(专利权)人: | 华联世纪工程咨询股份有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/35;G06K9/62 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫 |
地址: | 510000 广东省广州市越*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 工程 材料 类别 智能 识别 方法 | ||
1.一种工程材料类别智能识别方法,其中,所述工程材料类别智能识别方法包括:
步骤S1:准备材料训练样本和材料测试样本,材料训练样本包括国标二级编码、材料名称,材料测试样本只有材料名称;
步骤S2:对材料测试样本的材料名称进行分词后去除停用词;对材料训练样本进行分词后去重,得到各类别关键词组合名称;
步骤S3:计算清洗后的材料测试样本材料名称与材料训练样本关键词组合名称的相似系数;根据相似系数选出材料测试样本的候选类别,或者分离出机器算法无法识别的材料测试样本,人工介入识别;
步骤S3.1:通过共现相似度算法计算出清洗后的材料测试样本材料名称与材料训练样本关键词组合名称的相似系数;
对于材料测试样本A和材料测试样本B,相似系数k的具体计算公式如下:
步骤S3.2:设定相似系数的阈值为0.3;将相似系数大于0.3的材料训练样本对应的国标二级分类视为材料测试样本的候选类别;将没有大于0.3的材料训练样本对应的材料测试样本分离出来,进行人工识别;
步骤S4:筛选出候选类别对应的材料训练样本,建立特征关键词和材料文本矩阵,使用信息增益法提取关键特征,提取特征关键词,并取前2/3特征关键词作为分类关键词;
信息增益的计算公式如下:
p(ci)表示第i个类别ci出现的概率,p(t)表示关键特征t出现的概率;p(ci/t)表示关键特征t出现时,ci出现的概率;
步骤S5:使用机器学习分类算法对材料名称进行最终类别确认。
2.如权利要求1所述的工程材料类别智能识别方法,其中,所述步骤S1中,材料测试样本是通过接口或者人工导入的材料数据和待识别类型;材料训练样本是已经被识别类型的材料样本。
3.如权利要求1所述的工程材料类别智能识别方法,其中,所述步骤S2进一步包括:
步骤S2.1:将材料测试样本中的材料名称进行分词,并与整理好的停用词库中的词汇进行匹配;删除材料名称中的停用词,实现对材料名称的清洗;
步骤S2.2:分别对国标二级分类编码所对应的材料训练样本进行分词处理,并对分词进行去重;留下的词为该类别的关键词,将这些关键词组合成各类别材料组合名称。
4.如权利要求1所述的工程材料类别智能识别方法,其中,所述步骤S5中,所述工程材料类别智能识别方法选取伯努利模型并基于贝叶斯算法建立NB分类器;所述伯努利模型中的特征值表示词组在材料文本中出现或不出现。
5.如权利要求4所述的工程材料类别智能识别方法,其中,训练样本有n个特征,分别用x1,x2……xn表示;则将其划分到类yk的可能性
当特征值为1时,p(xi|yk)=p(xi=1|yk) (4)
当特征值为0时,p(xi|yk)=1-p(xi=1|yk) (5)。
6.如权利要求1所述的工程材料类别智能识别方法,其中,所述工程材料类别智能识别方法进一步包括步骤S6:将识别的材料测试样本加入到材料训练样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华联世纪工程咨询股份有限公司,未经华联世纪工程咨询股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710554907.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于知识图谱的关系链接方法
- 下一篇:舆情分析方法及装置