大数据实验报告Word格式.docx
- 文档编号:22146593
- 上传时间:2023-02-02
- 格式:DOCX
- 页数:18
- 大小:1.62MB
大数据实验报告Word格式.docx
《大数据实验报告Word格式.docx》由会员分享,可在线阅读,更多相关《大数据实验报告Word格式.docx(18页珍藏版)》请在冰豆网上搜索。
实验工程
名称
Liunx根本操作
实验
目的及要求
1.了解Liunx操作系统开展历史。
2.学习Liunx操作系统根本概念及操作。
3.学习Liunx操作系统用户及文件权限管理。
4.Linux目录构造及文件根本操作。
内容
1.实验楼环境介绍,常用Shell命令及快捷键,Linux使用小技巧。
2.Linux中创立、删除用户,及用户组等操作。
Linux中的文件权限设置。
3.Linux的文件组织目录构造,相对路径和绝对路径,对文件的移动、复制、重命名、编辑等操作。
实验步骤
1.Liunx输入输出命令。
2.使用touch命令创立文件夹,后缀都为txt。
3.学会在命令行中获取帮助。
4.输出图形字符。
5.查看用户。
6.创立新用户。
7.删除用户。
8.查看文件权限。
9.用ls–A/Al/dl/AsSh查看文件。
10.变更文件所有者。
11.修改文件权限。
12.目录路径。
13.新建空白文件。
14.文件的复制、删除、移动、重命名。
实验环境
Liunx操作系统
实验结果与
分析
通过学习Liunx操作系统的开展历史、根本操作、用户及文件权限管理以及Linux目录构造及文件根本操作。
是得我大致了解Liunx操作系统的使用,并且能够完成相应的练习。
教师评语
注:
可根据实际情况加页
Hadoop的根本操作
1.Hadoop单机模式安装.
2.Hadoop伪分布模式配置部署.
3.Hadoop介绍及1.X伪分布式安装.
4.adoop2.X64位编译.
5.Hadoop2.X64位环境搭建.
1.hadoop三种安装模式介绍,hadoop单机模式安装,测试安装
2.hadoop配置文件介绍及修改,hdfs格式化,启动hadoop进程,验证安装.
3.Hadoop1.X伪分布安装,Hadoop介绍,Hadoop变量配置.
4.Hadoop2.X64位编译,编译Hadoop2.X64位,编译Hadoop.
5.搭建环境,部署Hadooop2.X,启动Hadoop.
1.用户及用户组,添加用户及用户组,添加sudo权限.
2.安装及配置依赖的软件包,安装openssh-server、java、rsync等,配置ssh免密码登录.
3.下载并安装Hadoop,下载Hadoop2.6.0,解压并安装,配置Hadoop.
4.测试验证.
5.相关配置文件修改:
修改core-site.xml:
6.格式化HDFS文件系统.
7.Hadoop集群启动.
8.测试验证.
9.设置Host映射文件.
10.下载并解压hadoop安装包
11.在Hadoop-1.1.2目录下创立子目录.
12.启动hadoop.
13.编译Hadoop2.X64位.
14.使用yum安装sun.
15.部署Hadooop2.X.与Hadoop1.X类似。
hadoopXfce终端
通过本次实验,让我对Hadoop有所了解,但是在实验过程中出现许多问题。
例如,不知道该如何下载javajdk,甚至如何创立文件夹目录下的文件,以及Hadoop的环境配置原理以及编译原理和方法。
这些都是实验中出现的问题,但是通过自己查询,问同学,局部问题已经得到解决,但是还存在一局部就只能通过课后自学进展解决!
!
通过上述的学习,让我对Hadoop的根本操作有了根底的掌握,包括Hadoop介绍及1.X伪分布式安装,adoop2.X64位编译,Hadoop2.X64位环境搭建等。
实验日期2017.06.01
HDFS和MapReduce
1.HDFS原理及操作。
2.MapReduce原理及操作。
环境说明,HDFS原理,HDFS架构,HDFS读操作,HDFS写操作,测试例子
2.MapReduce原理及操作。
环境说明,MapReduce原理,Map过程,Reduce过程,测试例子
1.1环境说明。
虚拟机操作系统:
CentOS6.664位,单核,1G内存
JDK:
1.7.0_5564位
Hadoop:
1.1.2
1.2HDFS原理。
HDFS〔HadoopDistributedFileSystem〕是一个分布式文件系统,是谷歌的GFS山寨版本。
它具有高容错性并提供了高吞吐量的数据访问,非常适合大规模数据集上的应用,它提供了一个高度容错性和高吞吐量的海量数据存储解决方案。
1.3HDFS架构。
HDFS是Master和Slave的构造,分为NameNode、SecondaryNameNode和DataNode三种角色。
1.4HDFS读操作。
客户端通过调用FileSystem对象的open()方法来翻开希望读取的文件。
1.5HDFS写操作。
客户端通过调用DistributedFileSystem的create()方法创立新文件。
1.6测试例子1。
1.创立代码目录
2.建立例子文件上传到HDFS中
3.配置本地环境
4.编写代码
5.编译代码
6.使用编译代码读取HDFS文件
2.MapReduce原理及操作。
2.1环境说明。
虚拟机操作系统:
2.2MapReduce原理。
Map和Reduce。
当你向MapReduce框架提交一个计算作业时,它会首先把计算作业拆分成假设干个Map任务,然后分配到不同的节点上去执行,每一个Map任务处理输入数据中的一局部,当Map任务完成后,它会生成一些中间文件,这些中间文件将会作为Reduce任务的输入数据。
Reduce任务的主要目标就是把前面假设干个Map的输出汇总到一起并输出。
2.3Map过程。
每个输入分片会让一个map任务来处理,默认情况下,以HDFS的一个块的大小〔默认为64M〕为一个分片,当然我们也可以设置块的大小。
map输出的结果会暂且放在一个环形内存缓冲区中〔该缓冲区的大小默认为100M,由io.sort.mb属性控制〕,当该缓冲区快要溢出时〔默认为缓冲区大小的80%,由io.sort.spill.percent属性控制〕,会在本地文件系统中创立一个溢出文件,将该缓冲区中的数据写入这个文件。
2.4Reduce过程。
Reduce会接收到不同map任务传来的数据,并且每个map传来的数据都是有序的。
如果reduce端承受的数据量相当小,那么直接存储在内存中〔缓冲区大小由mapred.job.shuffle.input.buffer.percent属性控制,表示用作此用途的堆空间的百分比〕,如果数据量超过了该缓冲区大小的一定比例〔由mapred.job.shuffle.merge.percent决定〕,那么对数据合并后溢写到磁盘中。
2.5测试例子。
1.编写代码。
2.编译代码。
3.打包编译文件。
4.解压气象数据并上传到HDFS中。
5.运行程序。
6.查看结果。
实验分析:
通过学习HDFS和MapReduce,了解其原理及操作,但是在实验过程中遇到很多问题,例如无法启动Hadoop、无法连接到Hadoop等问题,通过自己请教教师、同学以及网上自己动手查阅资料得以解决。
明白其工作原理,从而进一步了解到Hadoop的运行机制与操作,更加了解大数据。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 实验 报告