书签分享收藏举报版权申诉 / 15

立即下载加入VIP,免费下载

当前位置：首页 > 农林牧渔 > 林学 > 使用Hadoop计算气象数据.docx

使用Hadoop计算气象数据.docx

文档编号：7386616
上传时间：2023-01-23
格式：DOCX
页数：15
大小：514.57KB

使用Hadoop计算气象数据.docx

《使用Hadoop计算气象数据.docx》由会员分享，可在线阅读，更多相关《使用Hadoop计算气象数据.docx（15页珍藏版）》请在冰豆网上搜索。

使用Hadoop计算气象数据.docx

使用Hadoop计算气象数据

1下载气象数据集部分数据，写一个Map-Reduce作业，求每年的最低温度，部署并运行之，抓图过程

选取了1971、1972、1973年的部分数据：

程序代码内容如下：

MinTemperatureMapper.java

importjava.io.IOException;

importorg.apache.hadoop.io.IntWritable;

importorg.apache.hadoop.io.LongWritable;

importorg.apache.hadoop.io.Text;

importorg.apache.hadoop.mapreduce.Mapper;

publicclassMinTemperatureMapperextends

Mapper{

privatestaticfinalintMISSING=9999;

@Override

protectedvoidmap（LongWritablekey,Textvalue,

org.apache.hadoop.mapreduce.Mapper.Contextcontext）

throwsIOException,InterruptedException{

Stringline=value.toString（）;

Stringyear=line.substring（15,19）;

intairTemperature;

if（line.charAt（87）=='+'）{//parseIntdoesn'tlikeleadingplussigns

airTemperature=Integer.parseInt（line.substring（88,92））;

}else{

airTemperature=Integer.parseInt（line.substring（87,92））;

}

Stringquality=line.substring（92,93）;

if（airTemperature!

=MISSING&&quality.matches（"[01459]"））{

context.write（newText（year）,newIntWritable（airTemperature））;

}

MinTemperatureReducer.java

importjava.io.IOException;

importorg.apache.hadoop.io.IntWritable;

importorg.apache.hadoop.io.Text;

importorg.apache.hadoop.mapreduce.Reducer;

publicclassMinTemperatureReducerextends

Reducer{

@Override

protectedvoidreduce（Textkey,Iterablevalues,

Contextcontext）throwsIOException,InterruptedException{

intminValue=Integer.MAX_VALUE;

for（IntWritablevalue:

values）{

minValue=Math.min（value.get（）,minValue）;

}

context.write（key,newIntWritable（minValue））;

}

MinTemperature.java

importorg.apache.hadoop.fs.Path;

importorg.apache.hadoop.io.IntWritable;

importorg.apache.hadoop.io.Text;

importorg.apache.hadoop.mapreduce.Job;

importorg.apache.hadoop.mapreduce.lib.input.FileInputFormat;

importorg.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

publicclassMinTemperature{

publicstaticvoidmain（String[]args）throwsException{

if（args.length!

=2）{

System.err.println（"Usage:

MinTemperature"）;

System.exit（-1）;

}

Jobjob=newJob（）;

job.setJarByClass（MinTemperature.class）;

FileInputFormat.addInputPath（job,newPath（args[0]））;

FileOutputFormat.setOutputPath（job,newPath（args[1]））;

job.setMapperClass（MinTemperatureMapper.class）;

job.setReducerClass（MinTemperatureReducer.class）;

job.setOutputKeyClass（Text.class）;

job.setOutputValueClass（IntWritable.class）;

System.exit（job.waitForCompletion（true）?

0:

1）;

}

编译：

生成jar包

运行mr任务

查看结果;

2在linux或win下安装eclipse，并且连接到Hadoop集群（关键步骤是编译插件），运行习题1的map-reduce程序作为测试，抓图整个过程

由于我的hadoop集群是安装在虚拟机上的，windows本地无相应的hadoop程序运行，因此在配置的需要将windows的用户名修改为相应的安装hadoop应用的用户名，我这里为bigdata1x，修改完成后重启windows系统，即可进行eclipse下的hadoop插件安装（如果不修改用户名与hadoop集群的用户名一致，后续连接到hadoop集群调试时会出错）

修改eclipse的hadoop的配置信息

并修改hadoop.tmp.dir参数

配置好后点击

切换到Map/Reduce视图，可看到DFS上的目录结构如下：

以上data目录即为作业中题目1对应的数据

创建相应的Map/Reduce工程

将题目1中的代码增加到工程中

配置相应的运行参数：

再通过hadoop运行，报如下错误：

15/04/2519:

39:

05WARNutil.NativeCodeLoader:

Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicable

15/04/2519:

39:

05ERRORsecurity.UserGroupInformation:

PriviledgedActionExceptionas:

bigdata1xcause:

java.io.IOException:

Failedtosetpermissionsofpath:

\tmp\hadoop-bigdata1x\mapred\staging\bigdata1x1095384666\.stagingto0700

Exceptioninthread"main"java.io.IOException:

Failedtosetpermissionsofpath:

\tmp\hadoop-bigdata1x\mapred\staging\bigdata1x1095384666\.stagingto0700

atorg.apache.hadoop.fs.FileUtil.checkReturnValue（FileUtil.java:

691）

atorg.apache.hadoop.fs.FileUtil.setPermission（FileUtil.java:

664）

atorg.apache.hadoop.fs.RawLocalFileSystem.setPermission（RawLocalFileSystem.java:

514）

atorg.apache.hadoop.fs.RawLocalFileSystem.mkdirs（RawLocalFileSystem.java:

349）

atorg.apache.hadoop.fs.FilterFileSystem.mkdirs（FilterFileSystem.java:

193）

atorg.apache.hadoop.mapreduce.JobSubmissionFiles.getStagingDir（JobSubmissionFiles.java:

126）

atorg.apache.hadoop.mapred.JobClient$2.run（JobClient.java:

942）

atorg.apache.hadoop.mapred.JobClient$2.run（JobClient.java:

936）

atjava.security.AccessController.doPrivileged（NativeMethod）

atjavax.security.auth.Subject.doAs（Subject.java:

415）

atorg.apache.hadoop.security.UserGroupInformation.doAs（UserGroupInformation.java:

1190）

atorg.apache.hadoop.mapred.JobClient.submitJobInternal（JobClient.java:

936）

atorg.apache.hadoop.mapreduce.Job.submit（Job.java:

550）

atorg.apache.hadoop.mapreduce.Job.waitForCompletion（Job.java:

580）

atdataguru.lesson4.e2.MinTemperature.main（MinTemperature.java:

27）

通过网上查询，在主程序的中增加如下内容

参见：

如果配置了以上参数还报相同的错，则需要检查eclipse中hadoop.tmp.dir、mapred.local.dir配置的是否正确

以上如果不增加mapred.jar参数配置，则对应的mapreduce程序不能将所有的class都提交到hadoop集群中，会抛出mapper、reducer的ClassNotFound异常

程序正常运行日志如下：

查看运行结果：

第3-4题为2选1（请在课程资源下载第6周作业素材和视频素材），如能2题均完成为最佳。

3传递参数问题

请阅读Exercise_1.java，编译并且运行。

该程序从Test_1改编而来，其主要差别在于能够让用户在结果文件中的每一行前面添加一个用户自定义的字符串，而这个字符串将由参数传递到程序中。

例如，运行

$hadoopjarExercise_1.jarinput_pathoutput_pathhadoop

之后，第三个参数“hadoop”将会在结果文件中显示，例如附件“result_1”所显示的。

问题：

着重考虑Exercise_1.java里面”需要注意的部分“，改写Test_2程序，得到的结果必须跟附件\"resule_2\"一致，并且其中hadoop必须由参数传递。

改写Test_2程序的代码内容如下：

packagedataguru.lesson4.e3;

/**

*Hadoop网络课程模板程序

*编写者：

James

*/

importjava.io.IOException;

importjava.text.DateFormat;

importjava.text.SimpleDateFormat;

importjava.util.Date;

importorg.apache.hadoop.conf.Configuration;

importorg.apache.hadoop.conf.Configured;

importorg.apache.hadoop.fs.Path;

importorg.apache.hadoop.io.LongWritable;

importorg.apache.hadoop.io.Text;

importorg.apache.hadoop.mapreduce.Job;

importorg.apache.hadoop.mapreduce.Mapper;

importorg.apache.hadoop.mapreduce.Reducer;

importorg.apache.hadoop.mapreduce.lib.input.FileInputFormat;

importorg.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

importorg.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

importorg.apache.hadoop.util.Tool;

importorg.apache.hadoop.util.ToolRunner;

/**

*有Reducer版本

*/

publicclassTest_2_mextendsConfiguredimplementsTool{

/**

*计数器用于计数各种异常数据

*/

enumCounter{

LINESKIP,//出错的行

}

/**

*MAP任务

*/

publicstaticclassMapextendsMapper{

publicvoidmap（LongWritablekey,Textvalue,Contextcontext）

throwsIOException,InterruptedException{

Stringline=value.toString（）;//读取源数据

try{

//数据处理

String[]lineSplit=line.split（""）;

Stringanum=lineSplit[0];

Stringbnum=lineSplit[1];

context.write（newText（bnum）,newText（anum））;//输出

}catch（java.lang.ArrayIndexOutOfBoundsExceptione）{

context.getCounter（Counter.LINESKIP）.increment

（1）;//出错令计数器+1

return;

}

/**

*REDUCE任务

*/

publicstaticclassReduceextendsReducer{

privateStringname;

@Override

protectedvoidsetup（Contextcontext）throwsIOException,

InterruptedException{

this.name=context.getConfiguration（）.get（"name"）;

}

publicvoidreduce（Textkey,Iterablevalues,Contextcontext）

throwsIOException,InterruptedException{

StringvalueString;

Stringout="";

for（Textvalue:

values）{

valueString=value.toString（）;

out+=valueString+"|";

}

if（mons.lang.StringUtils.isNotEmpty（this.name））{

out+=this.name;

}

context.write（key,newText（out））;

}

@Override

publicintrun（String[]args）throwsException{

Configurationconf=getConf（）;

conf.set（"mapred.job.tracker","192.168.2.103:

9001"）;

conf.set（"mapred.jar","D:

\\Hadoop\\lesson4\\Test_2_m.jar"）;

if（args.length>=3）{

conf.set（"name",args[2]）;

}

Jobjob=newJob（conf,"Test_2"）;//任务名

job.setJarByClass（Test_2_m.class）;//指定Class

FileInputFormat.addInputPath（job,newPath（args[0]））;//输入路径

FileOutputFormat.setOutputPath（job,newPath（args[1]））;//输出路径

job.setMapperClass（Map.class）;//调用上面Map类作为Map任务代码

job.setReducerClass（Reduce.class）;//调用上面Reduce类作为Reduce任务代码

job.setOutputFormatClass（TextOutputFormat.class）;

job.setOutputKeyClass（Text.class）;//指定输出的KEY的格式

job.setOutputValueClass（Text.class）;//指定输出的VALUE的格式

job.waitForCompletion（true）;

//输出任务完成情况

System.out.println（"任务名称：

"+job.getJobName（））;

System.out.println（"任务成功：

"+（job.isSuccessful（）?

"是":

"否"））;

System.out.println（"输入行数：

"

+job.getCounters（）

.findCounter（"org.apache.hadoop.mapred.Task$Counter",

"MAP_INPUT_RECORDS"）.getValue（））;

System.out.println（"输出行数：

"

+job.getCounters（）

.findCounter（"org.apache.hadoop.mapred.Task$Counter",

"MAP_OUTPUT_RECORDS"）.getValue（））;

System.out.println（"跳过的行：

"

+job.getCounters（）.findCounter（Counter.LINESKIP）.getValue（））;

returnjob.isSuccessful（）?

0:

1;

}

/**

*设置系统说明设置MapReduce任务

*/

publicstaticvoidmain（String[]args）throwsException{

//判断参数个数是否正确

//如果无参数运行则显示以作程序说明

if（args.length!

=3）{

System.err.println（""）;

System.err.println（"Usage:

Test_2"）;

System.err.println（"Example:

hadoopjar~/Test_2.jarhdfs:

//localhost:

9000/home/james/Test_2hdfs:

//localhost:

9000/home/james/output"）;

System.err.println（"Counter:

"）;

System.err.println（"\t"+"LINESKIP"+"\t"

+"Lineswhicharetooshort"）;

System.exit（-1）;

}

//记录开始时间

DateFormatformatter=newSimpleDateFormat（"yyyy-MM-ddHH:

mm:

ss"）;

Datestart=newDate（）;

//运行任务

intres=ToolRunner.run（newConfiguration（）,newTest_2_m（）,args）;

//输出任务耗时

Dateend=newDate（）;

floattime=（float）（（end.getTime（）-start.getTime（））/60000.0）;

System.out.println（"任务开始：

"+formatter.f

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 使用 Hadoop 计算气象数据

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：使用Hadoop计算气象数据.docx
链接地址：https://www.bdocx.com/doc/7386616.html

使用Hadoop计算气象数据.docx

热门标签