[发明专利]一种油田安全突出问题检测方法在审

申请号：	201910305672.6	申请日：	2019-04-16
公开（公告）号：	CN110046664A	公开（公告）日：	2019-07-23
发明（设计）人：	孙致学;姜宝胜;张凯;徐杨;谢爽;黄勇;何楚翘	申请（专利权）人：	中国石油大学（华东）
主分类号：	G06K9/62	分类号：	G06K9/62;G06F16/33;G06Q10/04;G06Q10/06
代理公司：	重庆晟轩知识产权代理事务所(普通合伙) 50238	代理人：	王海凤
地址：	266580 山***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	油田安全问题检测预测结果语料库文档文本训练样本集操作过程输入预测训练样本已知数据预测模型概率搜集检测预测
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种油田安全突出问题检测方法，其特征在于,包括如下步骤：

S100:搜集大量油田安全问题的案例，建立语料库D，预料库D中的每个案例均采用本领域技术词汇进行描述，并提取特征词；

定义：一系列相关的特征词构成一个主题，一个主题即代表一类油田安全突出问题；

S200：建立油田安全突出问题检测模型：选取语料库D中一部分数据构建训练样本集，另一部数据作为测试样本集；

采用三层贝叶斯概率模型对训练样本集中的数据进行训练，构建油田安全突出问题检测模型，然后再采用测试样本集中数据进行测试，并根据测试结果修正油田安全突出问题检测模型；

S300：待测油田安全突出问题预测，将待测油田安全突出问题输入所述油田安全突出问题检测模型中，计算出该待测油田安全突出问题对应的各个主题的概率值,选取概率值最大的主题作为待待测油田安全突出问题的预测结果，该预测结果即为待测油田安全突出问题的预测结果，输出该预测结果。

2.如权利要求1所述的油田安全突出问题检测方法，其特征在于,所述S100中语料库D中的每个案例，先通过正则表达式清洗，再提取特征词，最后将提取出的特征词存入一个TXT格式的文本中。

3.如权利要求2所述的油田安全突出问题检测方法，其特征在于,所述S300待测油田安全突出问题预测步骤为：

S301：将一个待测油田安全突出问题，通过正则表达式清洗，提取特征词，最后将提取出的特征词存入一个TXT格式的文本中，该TXT格式的文本定义为待测文档；

S302：将待测文档输入所述油田安全突出问题检测模型中，计算出该待测文档对应的各个主题的概率值,选取概率值最大的主题作为待测文档的预测结果，该预测结果即为待测油田安全突出问题的预测结果。

4.如权利要求1所述的油田安全突出问题检测方法，其特征在于,所述S200中建立油田安全突出问题检测模型的包括如下步骤：

S201：从语料数据库D中随机选取80％的数据构建训练样本集；

所述建训练样本集中共有T个主题、M个TXT格式文本和N个特征词；

S202：α是K维向量表示主题的先验分布的参数，β是K×V的矩阵，表示主题词的分布参数V＝N，β_ij表示第i个主题中第j个主题词w_j的概率，β_ij＝p(w_j|z_i),S表示迭代次数；

1)令s＝1；

2)在经验范围内对α和β随机赋值，采用Gibbs吉布斯抽样采样法近似求解θ和Φ；

3)初始化，为每个特征词x_t随机分配主题，z_i是表示i个主题，将z_i初始化为1到K之间的一个随机整数，i＝1,2,...K，此为Markov链的初始态；

4)令i＝1；

5)令d＝1；

6)令t＝1；

7)根据公式(2)计算第i个特征词x_t属于第j个主题的概率：

其中，表示当前词w_i在已知其他词各自所属主题的条件下,该词属于主题k的概率,n_i-1表示为第k个主题下第i个单词个数减去1，n_k-1表示为该文档第k个主题的个数减去1，表示练样本集中，除了特征词w_i，分配为第k个主题的所有特征词的数量，表示练样本集中，除了词汇w_i，所有分配了主题的特征词的数量；

记录n^(w)_k、n^(d)_k、n^(·)_k和n^(d)；

表示特征词x_t分配给第i个主题的次数,n^(·)_i表示分配给主题i的特征词数,n^(d)_i表示文本d中分配给主题i的特征词数，n^(d)表示文本d中所有分配了主题的特征词数；

8)当t≤N时，令t＝t+1，并返回6)；否则执行下一步；

9)令d＝d+1；

10)当d≤M时，返回5)，否则执行下一步；

11)令i＝i+1

12)当i≤T时，返回4)；否则执行下一步；

13)采用公式(3)和公式(4)计算分别计算θ和Φ；

其中，其中，θ^(d)_z＝k表示是在主题k下对应的文本—主题分布，Φ^(z＝k)_w表示主题k下对应的主题一词分布；

14)令s＝s+1；

15)如果s≤S，则返回2)，否则输出所有α和β的值；

S203：从语料数据库D中随机选取20％的数据构建测试样本集，所述测试样本集中共有T’个主题、有M’个测试文本和N’个特征词，利用公式(1)：

计算每个测试样本属于建训练样本集中每个主题的测试概率，并记录计算时对应的α和β的值，针对每个测试样本选取测试概率最大值所对应的主题作为其的预测主题；

最后选取M’个测试文本中预测主题正确率最高时所对应的α和β的值的作为α和β的最优值；

S204:油田安全突出问题检测模型如公式(5)：

其中，p(z_j|x₁,x₂,x₃,...,x_n)表示特征词(x₁,x₂,....,x_n)同时出现时，包含(x₁,x₂,....,x_n)的文档属于主题z_j的概率，p(z_j)表示训练文本集中，属于主题z_j的文本占总文本数的比率，p(x₁,x₂,....,x_n|z_j)表示待分类文本属于主题z_j时，该文本所包括特征词(x₁,x₂,....,x_n)的概率；