[发明专利]一种油田安全突出问题检测方法在审
申请号: | 201910305672.6 | 申请日: | 2019-04-16 |
公开(公告)号: | CN110046664A | 公开(公告)日: | 2019-07-23 |
发明(设计)人: | 孙致学;姜宝胜;张凯;徐杨;谢爽;黄勇;何楚翘 | 申请(专利权)人: | 中国石油大学(华东) |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/33;G06Q10/04;G06Q10/06 |
代理公司: | 重庆晟轩知识产权代理事务所(普通合伙) 50238 | 代理人: | 王海凤 |
地址: | 266580 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 油田安全 问题检测 预测结果 语料库 文档 文本 训练样本集 操作过程 输入预测 训练样本 已知数据 预测模型 概率 搜集 检测 预测 | ||
1.一种油田安全突出问题检测方法,其特征在于,包括如下步骤:
S100:搜集大量油田安全问题的案例,建立语料库D,预料库D中的每个案例均采用本领域技术词汇进行描述,并提取特征词;
定义:一系列相关的特征词构成一个主题,一个主题即代表一类油田安全突出问题;
S200:建立油田安全突出问题检测模型:选取语料库D中一部分数据构建训练样本集,另一部数据作为测试样本集;
采用三层贝叶斯概率模型对训练样本集中的数据进行训练,构建油田安全突出问题检测模型,然后再采用测试样本集中数据进行测试,并根据测试结果修正油田安全突出问题检测模型;
S300:待测油田安全突出问题预测,将待测油田安全突出问题输入所述油田安全突出问题检测模型中,计算出该待测油田安全突出问题对应的各个主题的概率值,选取概率值最大的主题作为待待测油田安全突出问题的预测结果,该预测结果即为待测油田安全突出问题的预测结果,输出该预测结果。
2.如权利要求1所述的油田安全突出问题检测方法,其特征在于,所述S100中语料库D中的每个案例,先通过正则表达式清洗,再提取特征词,最后将提取出的特征词存入一个TXT格式的文本中。
3.如权利要求2所述的油田安全突出问题检测方法,其特征在于,所述S300待测油田安全突出问题预测步骤为:
S301:将一个待测油田安全突出问题,通过正则表达式清洗,提取特征词,最后将提取出的特征词存入一个TXT格式的文本中,该TXT格式的文本定义为待测文档;
S302:将待测文档输入所述油田安全突出问题检测模型中,计算出该待测文档对应的各个主题的概率值,选取概率值最大的主题作为待测文档的预测结果,该预测结果即为待测油田安全突出问题的预测结果。
4.如权利要求1所述的油田安全突出问题检测方法,其特征在于,所述S200中建立油田安全突出问题检测模型的包括如下步骤:
S201:从语料数据库D中随机选取80%的数据构建训练样本集;
所述建训练样本集中共有T个主题、M个TXT格式文本和N个特征词;
S202:α是K维向量表示主题的先验分布的参数,β是K×V的矩阵,表示主题词的分布参数V=N,βij表示第i个主题中第j个主题词wj的概率,βij=p(wj|zi),S表示迭代次数;
1)令s=1;
2)在经验范围内对α和β随机赋值,采用Gibbs吉布斯抽样采样法近似求解θ和Φ;
3)初始化,为每个特征词xt随机分配主题,zi是表示i个主题,将zi初始化为1到K之间的一个随机整数,i=1,2,...K,此为Markov链的初始态;
4)令i=1;
5)令d=1;
6)令t=1;
7)根据公式(2)计算第i个特征词xt属于第j个主题的概率:
其中,表示当前词wi在已知其他词各自所属主题的条件下,该词属于主题k的概率,ni-1表示为第k个主题下第i个单词个数减去1,nk-1表示为该文档第k个主题的个数减去1,表示练样本集中,除了特征词wi,分配为第k个主题的所有特征词的数量,表示练样本集中,除了词汇wi,所有分配了主题的特征词的数量;
记录n(w)k、n(d)k、n(·)k和n(d);
表示特征词xt分配给第i个主题的次数,n(·)i表示分配给主题i的特征词数,n(d)i表示文本d中分配给主题i的特征词数,n(d)表示文本d中所有分配了主题的特征词数;
8)当t≤N时,令t=t+1,并返回6);否则执行下一步;
9)令d=d+1;
10)当d≤M时,返回5),否则执行下一步;
11)令i=i+1
12)当i≤T时,返回4);否则执行下一步;
13)采用公式(3)和公式(4)计算分别计算θ和Φ;
其中,其中,θ(d)z=k表示是在主题k下对应的文本—主题分布,Φ(z=k)w表示主题k下对应的主题一词分布;
14)令s=s+1;
15)如果s≤S,则返回2),否则输出所有α和β的值;
S203:从语料数据库D中随机选取20%的数据构建测试样本集,所述测试样本集中共有T’个主题、有M’个测试文本和N’个特征词,利用公式(1):
计算每个测试样本属于建训练样本集中每个主题的测试概率,并记录计算时对应的α和β的值,针对每个测试样本选取测试概率最大值所对应的主题作为其的预测主题;
最后选取M’个测试文本中预测主题正确率最高时所对应的α和β的值的作为α和β的最优值;
S204:油田安全突出问题检测模型如公式(5):
其中,p(zj|x1,x2,x3,...,xn)表示特征词(x1,x2,....,xn)同时出现时,包含(x1,x2,....,xn)的文档属于主题zj的概率,p(zj)表示训练文本集中,属于主题zj的文本占总文本数的比率,p(x1,x2,....,xn|zj)表示待分类文本属于主题zj时,该文本所包括特征词(x1,x2,....,xn)的概率;
p(x1,x2,...,xn)是常数,求解公式(5)等价于求解公式(6);
C=arg max p(x1,x2,....,xn|zj)p(zj) (6);
根据贝叶斯假设,文本特征向量x1,x2,....,xn独立同分布,其联合概率分布等于各个属性特征概率分布的乘积,公式(6)等价于公式(7);
C=arg max p(zj)∏ip(xi|zj) (7);
其中,M(C=zj)表示训练文本中属于zj类别的样本数量,M表示训练样本总数量;
T(Xi=xi,C=zj)表示类别zj中包含属性xi的练样本数量,T(C=zj)表示主题zj中的训练样本数量,Q表示训练样本集合中经过去除无用词后关键词的数量。
5.如权利要求4所述的油田安全突出问题检测方法,其特征在于,所述S300待测油田安全突出问题预测包括如下步骤:
S301:将一个待测油田安全突出问题,通过正则表达式清洗,提取特征词,最后将提取出的特征词存入一个TXT格式的文本中,该TXT格式的文本定义为待测文档;
S302:设定预测阈值,然后将待测文档输入所述油田安全突出问题检测模型中,计算出该待测文档对应的各个主题的概率值,选取最大概率值;
S303:当选取的最大概率值大于阈值时,则选取最大概率值所对应的主题作为待测文档的预测结果,该预测结果即为待测油田安全突出问题的预测结果,输出预测结果;
当选取的最大概率值小于或等于阈值时,则进行下一步;
S304:所述最大概率值所对应的主题作为待测文档的初次预测值,然后该初次预测值所对应的主题中的所有特征词的前Y个特征词加入到待测文本中得到修正后待测文本,将修正后待测文本输入到所述油田安全突出问题检测模型中,计算出该修正后待测文本对应的各个主题的概率值,再次选取最大概率值,并返回S303。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910305672.6/1.html,转载请声明来源钻瓜专利网。