[发明专利]油田综合研究大数据样本标注方法在审
申请号: | 202110621696.X | 申请日: | 2021-06-03 |
公开(公告)号: | CN115438115A | 公开(公告)日: | 2022-12-06 |
发明(设计)人: | 张世明;孙业恒;李春雷;张林凤;姜兴兴;杨河山;刘建涛;马青;靳彩霞;车慧翠 | 申请(专利权)人: | 中国石油化工股份有限公司;中国石油化工股份有限公司胜利油田分公司勘探开发研究院 |
主分类号: | G06F16/26 | 分类号: | G06F16/26;G06F16/21 |
代理公司: | 济南日新专利代理事务所(普通合伙) 37224 | 代理人: | 崔晓艳 |
地址: | 257000 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 油田 综合 研究 数据 样本 标注 方法 | ||
本发明提供一种油田综合研究大数据样本标注方法,该油田综合研究大数据样本标注方法包括:步骤1,提取油田勘探开发业务相关的结构化数据;步骤2,对原始的结构化数据进行预处理;步骤3,根据业务需求,以曲线、图、表这些形式直观展示数据;步骤4,在数据可视化展示界面下,进行样本标注;步骤5,基于标注完成的基础样本集,构建全量样本集;步骤6,对于已标定的样本集,进行样本的维护。该油田综合研究大数据样本标注方法技术思路清楚,标注方法具有创新性,而且标注工具应用简单、方便,实现了油田勘探开发综合研究领域大数据样本采集的智能化、便捷化,具有两项明显的效果。
技术领域
本发明涉及油田数据处理技术领域,特别是涉及到一种油田综合研究大数据样本标注方法。
背景技术
开展油田勘探开发综合研究大数据技术研究,利用SVM、随机森林等机器学习算法和CNN、RNN等深度学习算法建立识别或预测模型,实现大数据应用场景,需要用到大量的样本数据。人工标注样本存在工作量大,标注成果分散在个人手中,无法共享应用等问题,因此,建立通用的样本数据标注方法,研发可视化标注工具,从海量数据中快速对数据进行样本标注,实现数据和专家经验的融合,构建高质量、标准化的油气大数据样本集,并对这些宝贵样本资源进行有效管理是实现大数据场景的基石。
随着人工智能的发展,机器学习、深度学习等对数据标注的需求越来越高。样本数据标注的越精准,算法模型训练的效果就越好,能否建立足够的、高质量的样本数据是制约模型和算法突破瓶颈的关键。正是由于样本数据标注的重要性,在AI传统行业已经形成了一条数据标注产业链。比较著名的标注平台有京东众智、腾讯云数据采集标注服务、百度数据众包、数据堂等。目前市面上的数据标注存在以下问题:(1)现有的数据标注平台大都采用众包模式分配任务,导致标注结果质量层次不齐,从而影响模型训练的准确性。(2)数据标注产业主要面向个人或企业的项目需求,针对不同的行业应用对数据标注的任务存在一定的差异性,传统行业的数据标注方法主要面向的是互联网数据,与油田专业数据类型差异大,难以满足油田勘探开发专业大数据标注需求,细化标注任务。(3)标注过程无法针对油田勘探开发数据形成可视化成图,实现人工交互标注。(4)标注结果无法进行有效的管理和共享应用。
在申请号:CN201811175992.6的中国专利申请中,涉及到一种基于大数据技术的石油化工装置产品收率优化方法,包括:收集装置的历史生产数据,并对收集的数据进行清洗和整定,获得用于优化产品收率的数据样本;对所述数据样本进行相关性分析,筛选出与产品收率相关的工艺参数;利用神经网络算法建立用于描述产品收率与相关工艺参数关系的神经网络模型,以所述数据样本为训练样本,利用遗传算法训练所述神经网络模型的系数,生成产品收率预测模型;在装置约束条件下,以经济效益最大化为目标,利用所述产品收率预测模型确定最佳产品收率以及生产中可调控的操作变量在此最佳产品收率下的取值。
在申请号:CN202011331925.6的中国专利申请中,涉及到一种基于大数据的深度学习样本标注方法,该方法包括:接收与样本库中的第一组样本对象相关的用户标注输入;训练包含权值向量的偏好预测模型,所述权值向量包含与样本库相关联的多个特征中的每个特征的加权值,该样本库包括向用户呈现的第一组样本对象,利用所接收的用户标注输入来训练每个特征的加权值;选择要提供至用户的第二组样本对象,所述第二组样本对象相对于样本库中其他未被标识的样本对象,提供从用户标注输入获取的更多的先验知识;以及根据训练后的偏好预测模型,推送预设数量的偏好对象以提供至用户。
在申请号:CN202011323996.1的中国专利申请中,涉及到一种用于内容推荐的基于大数据的深度学习样本标注方法,该方法包括:接收与样本库中的第一组样本对象相关的用户标注输入;训练包含权值向量的偏好预测模型,所述权值向量包含与样本库相关联的多个特征中的每个特征的加权值,该样本库包括向用户呈现的第一组样本对象,利用所接收的用户标注输入来训练每个特征的加权值;选择要提供至用户的第二组样本对象,所述第二组样本对象相对于样本库中其他未被标识的样本对象,提供从用户标注输入获取的更多的先验知识;以及根据训练后的偏好预测模型,推送预设数量的偏好对象以提供至用户。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油化工股份有限公司;中国石油化工股份有限公司胜利油田分公司勘探开发研究院,未经中国石油化工股份有限公司;中国石油化工股份有限公司胜利油田分公司勘探开发研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110621696.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自膨胀式药物涂层血管支架
- 下一篇:一种基于交互的参数标定方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置