书签分享收藏举报版权申诉 / 37

立即下载加入VIP,免费下载

当前位置：首页 > 幼儿教育 > 幼儿读物 > MapReduce经典例子WordCount运行详解.docx

MapReduce经典例子WordCount运行详解.docx

文档编号：28425716
上传时间：2023-07-13
格式：DOCX
页数：37
大小：343.17KB

《MapReduce经典例子WordCount运行详解.docx》由会员分享，可在线阅读，更多相关《MapReduce经典例子WordCount运行详解.docx（37页珍藏版）》请在冰豆网上搜索。

MapReduce经典例子WordCount运行详解.docx

MapReduce经典例子WordCount运行详解

创建时间：

2012/3/1

修改时间：

2017/3/1修改次数：

0

HadoopMapReduce经典例子

——WordCount运行详解

1、MapReduce理论简介

1.1MapReduce编程模型

MapReduce采用“分而治之”的思想，把对大规模数据集的操作，分发给一个主节点

管理下的各个分节点共同完成，然后通过整合各个节点的中间结果，得到最终结果。

简单地

说，MapReduce就是“任务的分解与结果的汇总”。

在Hadoop中，用于执行MapReduce任务的机器角色有两个：

一个是JobTracker；另一

个是TaskTracker，JobTracker是用于调度工作的，TaskTracker是用于执行工作的。

一个Hadoop

集群中只有一台JobTracker。

在分布式计算中，MapReduce框架负责处理了并行编程中分布式存储、工作调度、负

载均衡、容错均衡、容错处理以及网络通信等复杂问题，把处理过程高度抽象为两个函数：

map和reduce，map负责把任务分解成多个任务，reduce负责把分解后多任务处理的结果汇

总起来。

需要注意的是，用MapReduce来处理的数据集（或任务）必须具备这样的特点：

待处

理的数据集可以分解成许多小的数据集，而且每一个小数据集都可以完全并行地进行处理。

1.2MapReduce处理过程

在Hadoop中，每个MapReduce任务都被初始化为一个Job，每个Job又可以分为两种

阶段：

map阶段和reduce阶段。

这两个阶段分别用两个函数表示，即map函数和reduce函

数。

map函数接收一个形式的输入，然后同样产生一个形式的中间输

出，Hadoop函数接收一个如形式的输入，然后对这个value集合进行处

理，每个reduce产生0或1个输出，reduce的输出也是形式的。

MapReduce处理大数据集的过程

1

创建时间：

2012/3/1

修改时间：

2017/3/1修改次数：

0

2、运行WordCount程序

单词计数是最简单也是最能体现MapReduce思想的程序之一，可以称为MapReduce版

“HelloWorld”，该程序的完整代码可以在Hadoop安装包的“src/examples”目录下找到。

单词计数主要完成功能是：

统计一系列文本文件中每个单词出现的次数，如下图所示。

2.1准备工作

现在以“hadoop”普通用户登录“Master.Hadoop”服务器。

1）创建本地示例文件

首先在“/home/hadoop”目录下创建文件夹“file”。

接着创建两个文本文件file1.txt和file2.txt，file1.txt内容为使“HelloWorld”而file2.txt，

的内容为“HelloHadoop”。

2

创建时间2012/3/1

修改时间：

2017/3/1修改次数：

0

2）在HDFS上创建输入文件夹

3）上传本地file中文件到集群的input目录下

2.2运行例子

1）在集群上运行WordCount程序

备注：

以input作为输入目录，output目录作为输出目录。

已经编译好的WordCount的Jar在“/usr/hadoop”下面，“hadoop-examples-1.0.0.jar”就是，

所以在下面执行命令时记得把路径写全了，不然会提示找不到该Jar包。

2）MapReduce执行过程显示信息

Hadoop命令会启动一个JVM来运行这个MapReduce程序，并自动获得Hadoop的配置，

同时把类的路径（及其依赖关系）加入到Hadoop的库中。

以上就是HadoopJob的运行记录，

从这里可以看到，这个Job被赋予了一个ID号：

job_201202292213_0002，而且得知输入文

件有两个（Totalinputpathstoprocess:

2），同时还可以了解map的输入输出记录（record数

及字节数），以及reduce输入输出记录。

比如说，在本例中，map的task数量是2个，reduce

3

创建时间：

2012/3/1

修改时间：

2012/3/1修改次数：

0

的task数量是一个。

map的输入record数是2个，输出record数是4个等信息。

2.3查看结果

1）查看HDFS上output目录内容

从上图中知道生成了三个文件，我们的结果在“part-r-00000”中。

2）查看结果输出文件内容

3、WordCount源码分析

3.1特别数据类型介绍

Hadoop提供了如下内容的数据类型，这些数据类型都实现了WritableComparable接口，

以便用这些类型定义的数据可以被序列化进行网络传输和文件存储，以及进行大小比较。

BooleanWritable：

标准布尔型数值

ByteWritable：

单字节数值

DoubleWritable：

双字节数

FloatWritable：

浮点数

IntWritable：

整型数

LongWritable：

长整型数

Text：

使用UTF8格式存储的文本

NullWritable：

当中的key或value为空时使用

3.2旧的WordCount分析

1）源代码程序

packageorg.apache.hadoop.examples;

4

创建时间：

2012/3/1

修改时间：

2012/3/1修改次数：

0

importjava.io.IOException;

importjava.util.Iterator;

importjava.util.StringTokenizer;

importorg.apache.hadoop.fs.Path;

importorg.apache.hadoop.io.IntWritable;

importorg.apache.hadoop.io.LongWritable;

importorg.apache.hadoop.io.Text;

importorg.apache.hadoop.mapred.FileInputFormat;

importorg.apache.hadoop.mapred.FileOutputFormat;

importorg.apache.hadoop.mapred.JobClient;

importorg.apache.hadoop.mapred.JobConf;

importorg.apache.hadoop.mapred.MapReduceBase;

importorg.apache.hadoop.mapred.Mapper;

importorg.apache.hadoop.mapred.OutputCollector;

importorg.apache.hadoop.mapred.Reducer;

importorg.apache.hadoop.mapred.Reporter;

importorg.apache.hadoop.mapred.TextInputFormat;

importorg.apache.hadoop.mapred.TextOutputFormat;

public

{

class

WordCount

public

{

private

staticclassMapextendsMapReduceBase

Mapper

finalstaticIntWritableone=new

Textword=newText（）;

implements

IntWritable

（1）;

public

voidmap（LongWritablekey,Textvalue,

OutputCollectoroutput,Reporterreporter）

throwsIOException

{

Stringline=value.toString（）;

StringTokenizertokenizer=newStringTokenizer（line）;

while（tokenizer.hasMoreTokens（））

{

word.set（tokenizer.nextToken（））;

output.collect（word,one）;

}

5

创建时间：

2012/3/1

修改时间：

2012/3/1修改次数：

0

public

{

staticclassReduceextendsMapReduceBase

Reducer

implements

public

voidreduce（Textkey,Iteratorvalues,

OutputCollectoroutput,Reporterreporter）

throwsIOException

{

intsum=0;

while（values.hasNext（））

{

sum+=values.next（）.get（）;

}

output.collect（key,newIntWritable（sum））;

}

publicstaticvoidmain（String[]args）throwsException

{

JobConfconf=newJobConf（WordCount.class）;

conf.setJobName（"wordcount"）;

conf.setOutputKeyClass（Text.class）;

conf.setOutputValueClass（IntWritable.class）;

conf.setMapperClass（Map.class）;

conf.setCombinerClass（Reduce.class）;

conf.setReducerClass（Reduce.class）;

conf.setInputFormat（TextInputFormat.class）;

conf.setOutputFormat（TextOutputFormat.class）;

FileInputFormat.setInputPaths（conf,newPath（args[0]））;

FileOutputFormat.setOutputPath（conf,newPath（args[1]））;

JobClient.runJob（conf）;

}

3）主方法Main分析

public

{

static

void

main（String[]args）throwsException

JobConfconf=newJobConf（WordCount.class）;

conf.setJobName（"wordcount"）;

6

创建时间：

2012/3/1

修改时间：

2012/3/1修改次数：

0

conf.setOutputKeyClass（Text.class）;

conf.setOutputValueClass（IntWritable.class）;

conf.setMapperClass（Map.class）;

conf.setCombinerClass（Reduce.class）;

conf.setReducerClass（Reduce.class）;

conf.setInputFormat（TextInputFormat.class）;

conf.setOutputFormat（TextOutputFormat.class）;

FileInputFormat.setInputPaths（conf,newPath（args[0]））;

FileOutputFormat.setOutputPath（conf,newPath（args[1]））;

JobClient.runJob（conf）;

}

首先讲解一下Job的初始化过程。

main函数调用Jobconf类来对MapReduceJob进行

初始化，然后调用setJobName（）方法命名这个Job。

对Job进行合理的命名有助于更快地找

到Job，以便在JobTracker和Tasktracker的页面中对其进行监视。

JobConfconf=newJobConf（WordCount.class）;

conf.setJobName（"wordcount"）;

接着设置Job输出结果的中key和value数据类型，因为结果是<单词,个数>，

所以key设置为“Text”类型，相当于Java中String类型。

Value设置为“IntWritable”，相

当于Java中的int类型。

conf.setOutputKeyClass（Text.class）;

conf.setOutputValueClass（IntWritable.class）;

然后设置Job处理的Map（拆分）、Combiner（中间结果合并）以及Reduce（合并）的

相关处理类。

这里用Reduce类来进行Map产生的中间结果合并，避免给网络数据传输产生

压力。

conf.setMapperClass（Map.class）;

conf.setCombinerClass（Reduce.class）;

conf.setReducerClass（Reduce.class）;

接着就是调用setInputPath（）和setOutputPath（）设置输入输出路径。

conf.setInputFormat（TextInputFormat.class）;

conf.setOutputFormat（TextOutputFormat.class）;

7

创建时间：

2012/3/1

修改时间：

2012/3/1修改次数：

0

（1）InputFormat和InputSplit

InputSplit是Hadoop定义的用来传送给每个单独的map的数据，InputSplit存储的并非

数据本身，而是一个分片长度和一个记录数据位置的数组。

生成InputSplit的方法可以通过

InputFormat（）来设置。

当数据传送给map时，map会将输入分片传送到InputFormat，InputFormat则调用方

法getRecordReader（）生成RecordReader，RecordReader再通过creatKey（）、creatValue（）

方法创建可供map处理的对。

简而言之，InputFormat（）方法是用来生成可供map

处理的对的。

Hadoop预定义了多种方法将不同类型的输入数据转化为map能够处理的

对，它们都继承自InputFormat，分别是：

InputFormat

|

|---BaileyBorweinPlouffe.BbpInputFormat

|---ComposableInputFormat

|---CompositeInputFormat

|---DBInputFormat

|---DistSum.Machine.AbstractInputFormat

|---FileInputFormat

|---CombineFileInputFormat

|---KeyValueTextInputFormat

|---NLineInputFormat

|---SequenceFileInputFormat

|---TeraInputFormat

|---TextInputFormat

其中TextInputFormat是Hadoop默认的输入方法，TextInputFormat中，在每个文件（或

其一部分）都会单独地作为map的输入，而这个是继承自FileInputFormat的。

之后，每行

数据都会生成一条记录，每条记录则表示成形式：

key值是每个数据的记录在数据分片中字节偏移量，数据类型是LongWritable；

value值是每行的内容，数据类型是Text。

（2）OutputFormat

每一种输入格式都有一种输出格式与其对应。

默认的输出格式是TextOutputFormat，

这种输出方式与输入类似，会将每条记录以一行的形式存入文本文件。

不过，它的键和值可

以是任意形式的，因为程序内容会调用toString（）方法将键和值转换为String类型再输出。

3）Map类中map方法分析

public

{

private

finalstaticIntWritableone=new

Textword=newText（）;

IntWritable

（1）;

staticclassMapextendsMapReduceBaseimplements

Mapper

8

创建时间：

2012/3/1

修改时间：

2012/3/1修改次数：

0

public

voidmap（LongWritablekey,Textvalue,

OutputCollectoroutput,Reporterreporter）

throwsIOException

{

Stringline=value.toString（）;

StringTokenizertokenizer=newStringTokenizer（line）;

while（tokenizer.hasMoreTokens（））

{

word.set（tokenizer.nextToken（））;

output.collect（word,one）;

}

Map类继承自MapReduceBase，并且它实现了Mapper接口，此接口是一个规范类型，

它有4种形式的参数，分别用来指定map的输入key值类型、输入value值类型、输出key

值类型和输出value值类型。

在本例中，因为使用的是TextInputFormat，它的输出key值是

LongWritable类型，输出value值是Text类型，所以map的输入类型为。

在本例中需要输出这样的形式，因此输出的key值类型是Text，输出的value值类

型是IntWritable。

实现此接口类还需要实现map方法，map方法会具体负责对输入进行操作，在本例中，

map方法对输入的行以空格为单位进行切分，然后使用OutputCollect收集输出的。

4）Reduce类中reduce方法分析

public

{

public

voidreduce（Textkey,Iteratorvalues,

OutputCollectoroutput,Reporterreporter）

throwsIOException

staticclassReduceextendsMapReduceBaseimplements

Reducer

{

intsum=0;

while（values.hasNext（））

{

sum+=values.next（）.get（）;

}

output.collect（key,newIntWritable（sum））;

}

Reduce类也是继承自MapReduceBase的，需要实现Reducer接口。

Reduce类以map

的输出作为输入，因此Reduce的输入类型是。

而Reduce的输出是单词

9

和它的数目，因此，它的输出类型是。

Reduce类也要实现reduce方法，

在此方法中，reduce函数将输入的key值作为输出的key值，然后将获得多个value值加起

来，作为输出的值。

3.3新的WordCount分析

1）源代码程序

packageorg.apache.hadoop.examples;

importjava.io.IOException;

importjava.util.StringTokenizer;

importorg.apache.hadoop.conf.Configuration;

importorg.apache.hadoop.fs.Path;

importorg.apache.hadoop.io.IntWritable;

importorg.apache.hadoop.io.Text;

importorg.apache.hadoop.mapreduce.Job;

importorg.apache.hadoop.mapreduce.Mapper;

importorg.apache.hadoop.mapreduce.Reducer;

importorg.apache.hadoop.mapreduce.lib.input.FileInputFormat;

importorg.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

importorg.apache.hadoop.util.GenericOptionsParser;

publicclassWordCount{

publicstaticclassTokenizerMapper

extendsMapper

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: MapReduce 经典例子 WordCount 运行详解

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：MapReduce经典例子WordCount运行详解.docx
链接地址：https://www.bdocx.com/doc/28425716.html

MapReduce经典例子WordCount运行详解.docx

热门标签