基于大数据的油田生产挖掘平台架构的研究及应用课案.docx
- 文档编号:26964189
- 上传时间:2023-06-24
- 格式:DOCX
- 页数:23
- 大小:144.15KB
基于大数据的油田生产挖掘平台架构的研究及应用课案.docx
《基于大数据的油田生产挖掘平台架构的研究及应用课案.docx》由会员分享,可在线阅读,更多相关《基于大数据的油田生产挖掘平台架构的研究及应用课案.docx(23页珍藏版)》请在冰豆网上搜索。
基于大数据的油田生产挖掘平台架构的研究及应用课案
工程硕士学位论文文献综述及开题报告
课题名称
基于大数据的油田生产挖掘平台
架构的研究及应用
架构研究与应用
学号
2015490003
姓名
宋尊锋
院系
石油工程学院
专业或领域
石油与天然气工程
指导教师
檀朝东
现场
指导教师
任正江
完成时间:
2015年12月28日
中国石油大学(北京)工程硕士研究生文献阅读成绩登记表
姓名:
____宋尊锋________学号:
2015490003_
专业领域:
石油与天然气工程导师:
_檀朝东______
请校内指导教师对学生的文献综述、论文开题情况进行总结,写出简要评语,并用百分制评定该环节的成绩:
文献阅读成绩:
注:
请研究生指导教师于__________年____月_____日前此表交所在系、院教学秘书。
中国石油大学(北京)工程硕士学位研究生学位论文工作安排表
院(系):
石油工程学院 专业或领域:
石油与天然气工程
研究生姓名
宋尊锋
学号
2015490003
导师姓名
檀朝东
学位论文题目
基于大数据的油田生产挖掘平台架构的研究及应用
项目来源
大庆油田研究课题
论文主要内容和要求
基于大数据的油田生产挖掘平台主要包括应用系统整合、大数据挖掘平台及展示应用3层架构,主要研究内容也围绕这三个层次展开。
(1)应用系统整合研究
应用系统整合主要对油田现有应用系统用户权限、数据库、软件协议和数据接口等进行调研,通过数据抽取、数据转换、屏幕图像识别等技术将分布在各独立数据库或系统中的数据整合,并转换成适合数据挖掘或建模的形式,构建样本数据集。
(2)大数据挖掘研究
通过分布式存储技术(HDFS、HBASE),实现汇总数据、模型数据、分析数据以及元数据等各类数据的存储,相当于数据仓库。
基于大数据建模算法和工具,挖掘数据中隐藏的模式或关系,采用数据建模软件(如SPSSModeler、Hadoop等)建立分类或预测模型(规则、公式或方程式),从而生成预测结果,确定评估方法并利用测试样本,结合专家经验不断提升模型精度,辅助油田生产决策。
(3)平台展示应用研究
将建立的数据模型针对油田生产需求封装成可运行软件,包括建模算法的实现、数据的可视化和界面设计等,最终展示给用户使用,实现人机交互。
论文工作时间安排
(1)2016.1-2016.5:
对油田现有应用系统用户权限、数据库、软件协议和数据接口等进行调研,油田生产数据分析需求;
(2)2016.6-2016.12:
数据抽取技术、分布式存储技术、基于大数据的数据挖掘算法研究;
(3)2017.1-2017.9:
撰写论文,准备答辩。
论文进行地点和方式
论文进行地点在大庆油田,采用现场调研结合室内研究实验的方式
现场导师意见
签名:
年月日
校内导师意见
签名:
年月日
院(系)负责人意见
签名:
年月日
中国石油大学(北京)石油工程学院
工程硕士学位论文开题报告指导教师意见书
硕士生姓名
宋尊锋
学号
2015490003
专业或领域
石油与天然气工程
选题名称
基于大数据的油田生产挖掘平台架构的研究及应用
评价项目
评价等级
优
良
中
差
学位论文选题依据(包括论文选题的意义、国内外研究现状分析等)
学位论文研究方案(包括研究目标、研究内容和拟解决的关键问题、拟采取的研究方法、技术路线、实验方案及可行性分析、可能的创新之处)
预期达到的目标、预期的研究成果
学位论文工作计划
总体评价
指导教师对选题报告的总体评价意见:
最后结论:
同意开题□修改后开题□重新开题□
校内导师签名:
年 月日
说明:
1.此表打印1份,由校内指导教师在论文开题前给出,反馈给学员,并将此表于开题前10个工作日内交给班主任(根据各班的通知确定)以确定是否为该名学员安排参加论文开题。
2.凡导师没有按时提交此表的均视作其导师不同意该学员进入论文开题阶段
3.此表装订在<论文工作安排表>后
4.请在相应选项空格内划“√”。
中国石油大学(北京)石油工程学院
工程硕士学位论文开题报告论证会专家名单报表
硕士生姓名
宋尊锋
学号
2015490003
专业或领域
石油与天然气工程
指导教师
姓名
檀朝东
研究方向
油气田开发工程
选题名称:
基于大数据的油田生产挖掘平台架构的研究及应用
参加论证会专家名单
序号
专家姓名
专业技术职称
(注明是硕导或博导)
工作单位
(所在系、所、研究室)
联系电话
1
檀朝东
副教授(硕导)
石油工程学院
2
王秀宇
副教授(硕导)
石油工程学院
3
石军太
副教授(硕导)
石油工程学院
4
赵仁保
副教授(硕导)
石油工程学院
5
薛永超
副教授(硕导)
石油工程学院
6
秘书
系、所、学科意见:
负责人签名:
年月日
学院意见:
主管院长(主任)签名:
年月日
说明:
1、开题报告论证会至少聘请5名副教授及以上技术职称的专家。
其中具有指导研究生资格的专家不少于3名(含指导教师),若选题为交叉学科,则应适当增加相关学科的专家参加。
参加开题报告论证会的专家名单,须经院系主管院长(主任)批准后方可生效。
2、此表打印1份,填写个人信息部分、于开题报告会时交秘书,秘书负责安排评审专家后返回学员。
3、此表装订在<指导教师意见书>后
中国石油大学(北京)石油工程学院
工程硕士学位论文开题报告论证会专家组论证意见书
硕士生姓名
宋尊锋
学号
2015490003
专业或领域
石油与天然气工程
选题名称
基于大数据的油田生产挖掘平台架构的研究及应用
评价项目
评价等级
优
良
中
差
学位论文选题依据(包括论文选题的意义、国内外研究现状分析等)
学位论文研究方案(包括研究目标、研究内容和拟解决的关键问题、拟采取的研究方法、技术路线、实验方案及可行性分析、可能的创新之处)
预期达到的目标、预期的研究成果
学位论文工作计划
总体评价
开题报告
论证情况
开题报告论证会专家共名,
其中同意开题名,修改后开题名,重新开题名。
专家组对选题报告的总体评价意见:
论证结论:
同意开题□修改后开题□重新开题□
论证专家组组长签名:
年 月日
说明:
1.此表打印1份,开题报告论证会前交给秘书,由专家组组长签名。
(装订在论证专家名单表后)。
与开题报告装订在一起,导师签名给出成绩后交院系办公室留存。
2.请在相应选项空格内划“√”。
工程硕士学位论文文献综述
课题名称
基于大数据的油田生产挖掘平台
架构的研究及应用
架构研究与应用
学号
2015490003
姓名
宋尊锋
院系
石油工程学院
专业或领域
石油与天然气工程
指导教师
檀朝东
现场
指导教师
任正江
完成时间:
2015年12月28日
1.1前言
随着市场竞争愈演愈烈,石油行业对信息的准确性、快速性要求越来越高,我国很多石油企业都进行了信息化建设,其中数字油田作为数字地球概念在油田中的具体应用,受到石油企业的广泛重视[1]
中国大部分石油企业的信息化建设起步于上世纪九十年代初期。
最初为了满足局部业务领域的应用需要,降低手工作业强度而开发了一系统应用软件。
这一时期的信息化建设具有分散、独立、规模小的特点。
随着油田也为的深入开展和信息技术的快速发展,跨部门、跨专业的综合应用系统逐步成为业务部门和管理部门的主要需求,而这些信息孤岛式的应用系统为数据信息的大规模共享和应用集成造成了巨大困难,人们需要寻求一种能够支持油田业务向纵深方向发展的整体的信息化建设模式。
经过十多年的油田数字化建设,中国石油目前已经有了51个统一的信息系统平台,其中ERP系统每天产生的信息就有1.2亿条,而随着油气生产物联网建设的加快,实时数据量更是爆炸式的增长。
但其中真正有价值的信息量却很少,这里的价值主要是指对企业决策者产生的作用和为企业效益带来的价值。
那么面对这些海量数据,我们如何才能从中获取对油田生产决策有用的数据呢,这无疑像大海捞针,如果在几年前,利用传统数据挖掘技术来应对如此大的数据简直是天方夜谈,但如果基于目前流行的大数据平台来进行数据挖掘,将可以大大提高效率,用最好的投入获得最大的回报[2]。
1.2国外油田大数据平台数据挖掘现状
当前,数据挖掘技术与石油工程领域还没有做到充分结合,应用也并不广泛。
有部分学者将数据挖掘技术应用到石油工程领域,取得了一定的效果。
LaSapienza将模糊逻辑理论与神经网络系统和AdHoc网络结合并将其应用到油井监测与诊断,提供了一种生产井动态分析的新方法;GertdeJonge等人提出通过数据挖掘技术开发相关的软件系统并应用到油田自动化监控中,从而达到提高油井生产效率并为管理者提供更可靠的管理决策的目的;G.Zangl通过建立数据挖掘模型,对油田各项数据的质量及油井或整个生产系统的监视提高了油气田的产量[3];LeonardoOcanto应用神经网络方法建立数学模型,从而实现了对人工举升系统进行模式识别的目的;ChristianOberwinkler等人运用算法与神经网络方法进行压裂设计,大大提高了设计最优裂缝的效率,与常规方法
相比,节省了大量的时间[4]。
1.3国内油田大数据平台数据挖掘现状
目前国内大部分油田还处于传统的数据处理架构模式,只有小规模的大数据基础平台建设研究。
但新疆油田和华北油田在大数据应用方面起步较早,目前已有成型的系统供现场应用,比如新疆油田的异常井只能识别诊断的应用,华北油田单井百万吨耗电情况的分析应用等。
1.4传统数据挖掘技术调研
1.4.1传统数据挖掘的定义
数据挖掘(英文名:
DataMining简称:
DM),专业领域上又称为资料探勘、数据采矿。
数据挖掘是数据知识发现(英文名:
KnowledgeDiscoverinDatabases,简称:
KDD)中的一个重要步骤。
一般指从海量的信息数据中通过特定的算法挖掘其中隐藏的信息的过程。
1.4.2传统数据挖掘的概念
随着数据库技术的不断发展,数据应用的不断成熟,数据量正在以爆炸式的速度增长。
大量的数据正向我们涌来。
如今我们有着大量的数据确没有足够的信息,面对这些浩瀚的数据,人们期望有这样一种技术,它能从这些大量数据中去粗求精、去伪求真。
恰是由于人们的期望,从数据库中挖掘信息的核心技术—数据挖掘应运而生。
可以这样说,数据挖掘其实就是从大量数据中找出对人们有用的信息的过程。
数据挖掘是数据库研究、开发和应用最活跃的分支。
典型的数据挖掘系统具有以下成分:
数据库:
对数据清理和集成。
数据库服务器:
根据数据挖掘请求,提取相关的数据信息。
信息库:
用于搜索、评价结果模式的兴趣度的领域信息。
数据挖掘引擎:
由一组功能模块组成,用于完成用户提交的数据挖掘任务。
模式评估模块:
使用兴趣度量,并与数据挖掘模块交互,以便将搜索聚焦在有兴趣的模式上。
图形用户界面:
提供用户与系统的交互,提交数据挖掘任务,帮助搜索聚焦评估挖掘的模式等。
原则上讲,数据挖掘能够在任一类型的数据存储上进行,包括关系型数据库、数据仓库、事物数据库、高级数据库系统、展开文件和WWW等。
1.4.3传统数据挖掘的起源
数据挖掘来源于业界的需求,在信息数据逐渐爆炸的时代,数据挖掘引起了信息产业界的极大关注,主要是因为在这些大量的数据中隐藏我们需求的信息,所以数据挖掘在信息产业界被广泛的使用,并将这些大量的数据通过一定的方式转换成有用的信息。
被获取的信息可以应用在各个领域,如商务管理,成产控制,市场分析调查,工程技术,科学探索等。
数据挖掘不仅使用了统计学的抽样、估计和假设检验以及人工智能、模式识别、机器学习的搜索算法、建模手段等思想,同时它也接受的思想也包括其它领域,例如最优化、进化计算、信息论、信号处理、可视化和信息检索等思想。
特别的,数据挖掘需要数据库系统提供可靠地存储、索引以及查询处理的支持,其中,源于高性能的并行的计算技术在处理这些大量数据集方面是非常重要的。
几年来,分布式处理技术也可以帮助处理大量数据集,并且当数据集不能集中在一起进行处理时更加方便,更显的至关重要。
1.4.4传统数据挖掘的发展阶段
数据挖掘的发展可以分为五个阶段,它是逐步递进的方式发展的,由简单到复杂、由数据量较小到数据量庞大的方式发展的。
[11]
第一阶段:
电子邮件阶段
此阶段业界认为从70年代开始,平均的通讯量基本以每年几倍的速度来增长。
第二阶段:
信息发布阶段
从1995年起,以Web技术为代表的信息发布系统呈爆炸式地成长起来,成为当前Internet的主要应用技术。
如何把握好从“粗放型”到“精确型”营销时代的电子商务成为主要问题。
第三阶段:
电子商务阶段
电子商务(英文名:
ElectronicCommerce,简称EC),在美国也刚刚开始,之所以将EC列为一个划时代的东西,就是因为Internet的最终目的主要用于商业用途,其实就是电子商务。
同时可以这样说,以后的商业信息,主要是通过Internet传递。
Internet将成为我们这个商业信息社会的神经系统。
1997年底在加拿大温哥华举行的第五次亚太经合组织非正式首脑会议(APEC)上,时任美国总统的克林顿提出敦促各国共同促进电子商务发展的议案,这引起了全球首脑的关注,IBM、HP、Sun等国际知名的信息技术厂商也已经宣布1998年为电子商务年。
第四阶段:
全程电子商务阶段
随着软件服务模式(英文名:
Softwareasaservice,简称SaaS)的出现,软件开始登陆互联网,这延长了电子商务的链条,形成了当下最新的“全程电子商务”概念模式。
也因此形成了一门独立的学科—数据挖掘与客户关系管理硕士。
第五阶段:
大数据阶段
随着信息技术的发展,信息量开始爆炸式的增长,如何在这些超大量数据集中挖掘出有用的信息成为越来越关注的问题,同时,基于大数据的数据挖掘技术也开始兴起,未来的几年,大数据时代将会以爆炸式的方式来临。
1.5基于大数据的数据挖掘技术调研
近两年,大数据逐渐走入我们的生活,大数据时代颠覆了我们过去所认知的数据时代,人们的生活因大数据带来的数据革命而受到巨大的影响。
大数据不仅影响着人们的生活,也影响着企业决策、组织、业务流程等。
在大数据的时代,人与人之间的界限逐渐模糊,值得一提的是大数据时代中,最宝贵的不是权利、金钱,而是大量的数据信息,这些数据会引领我们走向正确的道路,它才是未来最宝贵的财富。
但是这些财富现在却被层层包裹着,人们要想享用这笔财富,必然要祛除这些阻隔,而祛除这些阻隔最有效的方法就是—数据挖掘。
数据挖掘通过对大量数据的建模,对模型的进行专业的分析整理后,得出对人们有用的数据信息。
这些数据信息能帮助企业分析不同的客户和市场划分,根据消费者的喜好,找到企业的运营方式。
这些大量数据中可能隐藏着规律性的东西,通过建模技术就可以找到大量数据中的这种关联性。
数据挖掘常与统计学中的一些分析方法联合起来应用,所以想要掌握基于大数据的数据挖掘技术,统计分析也是必不可少的。
在业界上,基于大数据的数据挖掘被称为大数据挖掘,其包括基于内容的大数据挖掘和基于结构的大数据挖掘。
1.5.1基于内容的大数据挖掘
就内容的大数据挖掘包括实体关联分析和网络搜索技术。
1.5.1.1.实体关联分析
命名实体是指在现实世界中存在的具体的或抽象的实体,它具有特定的意义。
从大数据中挖掘命名实体中所蕴含的内在信息,关键在于对命名实体及其关系的数据挖掘。
在社会媒体生成的大数据中,实体类型越来越多,越来越细,它们之间的关系也越来越复杂。
对于实体关系的挖掘,是基于内容大数据挖掘领域的研究重点,研究人员提出了基于规则和基于机器学习的方法并初具成效。
1.5.1.2.网络搜索技术
网络信息搜索的研究重点在社会媒体出现之后转移到了排序学习算法,它专注于提高搜索质量。
以损失函数为优化目标的排序学习算法,寻找在搜索领域中常用的评价标准下的最好的排序函数,它文档表示为特征向量,目前现有的模型在处理用户需求的多样性、重要性和相关性等不同的目标,在排序方面仍有不足。
此外,社会媒体关注的数据段文本特征,对关键词的表达深入理解和分析,精确掌握用户的查询意图也是网络搜索技术关注的内容。
1.5.2基于结构的大数据挖掘
社会网络,以用户之间的关系为连线,以社会媒体用户为节点构建而成的网络。
它不仅是用户间社会关系的反映,也是用户间信息交互的载体。
社会网络具有结构多尺度性、网络动态演化性和关系异质性三方面特性。
在社会网络中,个体因兴趣爱好、血缘、行业、专业等多方面的因素,进而形成了紧密的圈子,这种对外关系稀疏而对内关系紧密的结构被称为社区。
社会网络所普遍具有的结构特征就是社区结构,它的存在对于大数据的网络演化、信息扩散、高效搜索定具有重要意义。
针对社区结构的研究,大致可划分为社区结构演化、社区发现等方向。
随着数据的积累、时间的推移,大数据挖掘的结构热点将会注重于社区演化的研究。
参考文献
[1]成晓鹏.浅谈数字信息化油田的现状及发展前景[J].中国信息化,2012.
[2]杨泽民.数据挖掘中关联规则算法的研究[J].软件,2013(11):
71-72.
[3]G.Zangl,C.P.Oberwinkler,Schlumberger.SPEAnnualTechnicalConferenceandExhibition,26-29September2004,Houston,Texas.
[4]ChristianOberwinkler,GerhardRuthammer,GeorgZangl,MichaelJ.Economides.SPEInternationalSymposiumandExhibitiononFormationDamageControl,18-20February2004,Lafayette,Louisiana.
[5]邬贺铨.大数据的机遇与挑战[J].求是,2013(4).
[6]陈如明.大数据时代的挑战、价值与应对策略[J].移动通信,2012(17).
[7]卓安.基于P2P可伸缩架构的大数据分析平台研究与实现[D.北京:
清华大学,2012
[8]陈杰华,戴丽娟.以培养计算思维为核心的程序设计实验教学[J].实验技术与管理,2011(13):
182-183.
[9]牟琴,谭良.计算思维的研究及其进展[J].计算机科学,2011(09):
135-136.
[10]任化敏,陈明.计算机应用型人才的计算思维培养研究[J].计算机教育,2010(04):
66-67.
[11]牟琴,谭良.基于计算思维的探究教学模式研究[J].中国远程教育,2010(28):
204-205.
[12]何钦铭,陆汉权,冯博琴.计算机基础教学的核心任务是计算思维能力的培养——《九校联盟(C9)计算机基础教学发展战略联合声明》解读[J].中国大学教学,2010(12):
98-99.
[13]檀朝东,陈见成,刘志海,王辉萍,史赞绒,杨若谷大数据挖掘技术在石油工程的应用前景展望[期刊论文]-中国石油和化工2015(01
[14]刘国民,孟祥菊,李亚等.数据挖掘技术在油田上的应用[J].内蒙古石油化工,2009,(16):
92~96.2009
[15]檀朝东,李鑫,耿玉广,刘志海,黄少伟,彭健,杨若谷采油工程大数据挖掘系统在华北油田的应用[期刊论文]-中国石油和化工2015(05)
[16]尚福华,王燕,赵敬茹,周代明,王岩基于数据仓库的数据挖掘技术在油田中的应用研究[期刊论文]-长江大学学报(自然科学版)2005(10)
[17]于同信.油田注水效率研究[D].山东东营:
中国石油大学(华东),2012~10.2012
[18]徐仲其注水系统效率影响因素分析与对策[期刊论文]-江汉石油职工大学学报2012(02)
[19]LUISA;SILVABAPACSarchivearchitecturesupportedonCloudservices2011
[20]TomWHadoop:
TheDefinitiveGuidc2009
工程硕士学位论文开题报告
课题名称
基于大数据的油田生产挖掘平台
架构的研究及应用
架构研究与应用
学号
2015490003
姓名
宋尊锋
院系
石油工程学院
专业或领域
石油与天然气工程
指导教师
檀朝东
现场
指导教师
任正江
完成时间:
2015年12月28日
一、课题研究的目的与意义
油田开发指标分析和预测是油田开发规划、开发方案设计与决策管理的重要依据。
随着信息技术的快速发展,利用各信息系统所提供的数据对油田开发进行分析决策已经成为实现油气田生产经营管理目标的重要行为之一,信息化的管理方式已经深入到生产与管理的各个层次。
但是随着油田信息化建设模式由数字化向智能化转变,为解决单项需求和部门应用,越来越多各自独立的子系统建成并投入使用,存在的问题也逐渐暴露出来:
1、大量重复功能及兼容性问题造成资源浪费、管理复杂低效、信息传递冲突不畅。
2、各系统内的数据彼此独立,互不关联,形成信息孤岛,数据共享困难。
3、生产数据量和数据类型复杂度不断增大,实时数据和非结构化数据不断增多,传统数据库或数据存储方式已不能满足今后发展需求。
4、面对日趋复杂的海量生产数据,传统分析方式已经显得力不从心,制约了油田生产的分析决策水平。
针对以上问题,我们需要建立一个基于大数据的油田生产挖掘平台,将油田现有、在建及未来将建的生产、经营等各类信息系统进行统一整合。
通过整合,改变现有单一专业纵向生产管理和研究模式,使管理人员、研究人员和技术人员能够轻松获取和共享来自油田不同专业的数据。
在丰富的数据基础上,不仅可以开展油田研究、进行生产分析、还可以实时获取现场生产数据、监控生产运行状态,更好的管理和经营油田。
二、国内外研究现状分析
1、石油领域大数据数据挖掘国外现状
在石油领域,国外数据挖掘的研究方向及趋势主要是对数据挖掘方法研究的进一步发展,如结合相关算法建立数据挖掘模型等。
LaSapienza将模糊逻辑理论与神经网络系统和AdHoc网络结合并将其应用到油井监测与诊断,提供了一种生产井动态分析的新方法;GertdeJonge等人提出通过数据挖掘技术开发相关的软件系统并应用到油田自动化监控中,从而达到提高油井生产效率并为管理者提供更可靠的管理决策的目的;G.Zangl通过建立数据挖掘模型,对油田各项数据的质量及油井或整个生产系统的监视提高了油气田的产量;LeonardoOcanto应用神经网络方法建立数学模型,从而实现了对
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 数据 油田 生产 挖掘 平台 架构 研究 应用