书签分享收藏举报版权申诉 / 12

立即下载加入VIP,免费下载

当前位置：首页 > 初中教育 > 学科竞赛 > Hadoop大作业.docx

Hadoop大作业.docx

文档编号：6059320
上传时间：2023-01-03
格式：DOCX
页数：12
大小：338.80KB

Hadoop大作业.docx

《Hadoop大作业.docx》由会员分享，可在线阅读，更多相关《Hadoop大作业.docx（12页珍藏版）》请在冰豆网上搜索。

Hadoop大作业.docx

Hadoop大作业

网络大数据课程作业

1实验环境部署

1.1主机环境

处理器Intel（R）Core（TM）2DuoCPU2.80GHz

内存8.00GB

操作系统WIN7SP164bit

1.2虚拟机环境

VMware®Workstation10.0.2build-1744117

处理器2Core

内存4GB

操作系统Ubuntu12.04LTSDesktop32bit

Hadoop与Spark环境在之前的练习中已经搭好。

2方法介绍

2.1文本聚类

文本聚类（Textclustering）主要是依据著名的聚类假设：

同类的文档相似度较大，而不同类的文档相似度较小。

作为一种无监督的机器学习方法，聚类由于不需要训练过程，以及不需要预先对文档手工标注类别，因此具有一定的灵活性和较高的自动化处理能力，已经成为对文本信息进行有效地组织、摘要和导航的重要手段。

文本聚类可以用于生成一篇简明扼要的摘要文档；对搜索引擎返回的结果进行聚类，使用户迅速定位到所需要的信息；对用户感兴趣的文档（如用户浏览器cache中的网页）聚类，从而发现用户的兴趣模式并用于信息过滤和信息主动推荐等服务；数字图书馆服务；文档集合的自动整理等等。

2.2主要的聚类方法

（1）基于划分的方法

基于划分的聚类算法（PartitioningMethod）是文本聚类应用中最为普遍的算法。

方法将数据集合分成若干个子集，它根据设定的划分数目k选出k个初始聚类中心，得到一个初始划分，然后采用迭代重定位技术，反复在k个簇之间重新计算每个簇的聚类中心，并重新分配每个簇中的对象，以改进划分的质量。

使得到的划分满足“簇内相似度高，簇间相似度小”的聚类原则。

典型的划分聚类方法有K-means算法和K-medoids算法，两者的区别在于簇代表点的计算方法不同。

前者使用所有点的均值来代表簇，后者则采用类中某个数据对象来代表簇。

为了对大规模的数据集进行聚类，以及处理复杂形状的聚类，各类改进的划分算法逐渐增多。

基于划分方法的优点是运行速度快，但该方法必须事先确定k的取值。

算法容易局部收敛，且不同的初始聚类中心选取对聚类结果影响较大。

为此，应用最广泛的k-means算法有很多变种，他们可能在初始k个聚类中心的选择、相似度的计算和计算聚类中心等策略上有所不同，最终实现聚类结果改进的目标。

（2）基于层次的方法

基于层次的聚类算法（HierarchicalMethod）又叫“分级聚类算法”或“树聚类”，它通过分解给定的数据对象集来创建一个层次。

这种聚类方法有两种基本的技术途径：

一是先把每个对象看作一个簇，然后逐步对簇进行合并，直到所有对象合为一个簇，或满足一定条件为止；二是把所有对象看成一类，根据一些规则不断选择一个簇进行分解，直到满足一些预定的条件，如类的数目达到了预定值，或两个最近簇的距离达到阈值等。

前者称为自下而上的凝聚式聚类，后者称为自上而下的分裂式聚类。

（3）基于密度的方法

绝大多数划分算法都是基于对象之间的距离进行聚类，这类方法只能发现圆形或球状的簇，较难发现任意形状的簇。

为此，提出了基于密度的聚类算法（Density-BasedClusteringMethod），其主要思想是：

只要邻近区域的对象或数据点的数目超过某个阈值，就继续聚类。

即对给定类中的每个数据点，在一个给定范围的区域中至少包含某个数目的点，这样就能很好的过滤掉“噪声”数据，发现任意形状的簇。

其基本出发点是，寻找低密度区域分离的高密度区域。

（4）基于网格的方法

基于网格的算法（Grid-BasedClusteringMethod）把对象空间量化为有限数目的单元，形成了一个网络结构。

所用的聚类操作都在整个网络结构即量化的空间上进行。

这种方法的一个突出的优点就是处理速度很快，其处理时间独立于数据对象的数目，只与量化空间中的每一维的单元数目有关。

（5）基于模型的方法

基于模型的算法（Model-BasedClusteringMethod）试图优化给定的数据和某些数学模型之间的适应性。

这样的算法经常是基于这样的假设，数据是根据潜在的概率分布生成的。

它通过为每个聚类假设一个模型来发现符合相应模型的数据对象。

根据标准统计方法并综合考虑“噪声”或异常数据，该方法可以自动确定聚类个数，从而得到鲁棒性较好的聚类方法。

基于模型的算法主要有两类，分别为统计学方法和神经网络方法。

2.3K-means算法

K-means算法接受数据集和参数k，经过若干次迭代，将输入的n个数据对象（以m维向量形式表示）划分为k个聚类，使得所获得的聚类满足：

1、同一聚类中的数据对象的相似度较高（或距离最近）；

2、不同聚类中的数据对象的相似度较低（或距离最远）。

算法流程：

1、适当选择k个初始中心；

2、在第i次迭代中，对任意一个样本数据，求其到k个中心的距离，然后将该样本数据归到距离最短的中心所在的类；

3、对于每个类，利用求均值等方法更新该类的中心值；

4、对于所有的k个聚类中心，如果经过2、3的某次迭代法更新后，值保持不变，则迭代结束，否则继续迭代。

2.4Hadoop实现

本次作业的实验数据为大量的中文短文本，包含未分词和已分词两种模式，而对于大规模的中文网站聚类，其流程见下图：

图1中文聚类分析

根据这一完整的流程，我们先在hadoop下实现聚类，共有七个源文件：

（1）WordFrequenceInDocument.java

提取中文、分词、去停用词、统计词频

（2）WordCountsInDocuments.java

统计每个网页的单词数目

（3）WordsInCorpusTFIDF.java

统计单词在多少个网页出现，计算TFIDF，建立词表

（4）DocumentVetorBuid.java

建立网页向量，随机选取K个网页作为中心点

（5）Kmeans.java

判断网页属于哪一类，更新中心点，最后输出网页所属中心标号

（6）KmeansDriver.java

控制Mapreduc的Job顺序，以及K-means迭代流程，设置参数

（7）DocTool.java

根据网页向量以及所有中心点向量输出网页所属的中心编号

在处理中文文本的过程中，三个主要的mapreduce过程如下：

表1WordFrequenceInDocument

表2WordCountsInDocuments

表3WordsInCorpusTFIDF

网页向量以及初始中心点的选取在Mapreduce中的过程为：

表4DocumentVectorBuild

DocTool简化了Kmeans过程中的代码，将计算网页向量与中心点向量之间的余弦距离，并根据最大的余弦距离判断网页属于哪一类的方法抽象出来，Kmeans的迭代过程中可以直接在调用，简化了Kmeans主类的代码复杂度。

Kmeans主类由两个Mapreduce组成，一个是在迭代过程中更新中心点，一个是生成最后的结果，这两个Mapreduce的Mapper和Reducer如下：

表5Kmeans聚类

2.5Spark实现

Spark平台中的实现不需要分别编写Map方法和Reduce方法，而是按照串行程序的正常逻辑顺序来编写。

具体实现过程如下：

（1）输入的文件使用Hadoop实现中预处理之后的文件，即样本文本特征向量集合，可以直接进行KMeans聚类的处理；

（2）随机生成k个（k=10）向量（维度和取值范围都与样本文本的特征向量一致）作为初始的k个中心；

（3）使用map操作将每个样本文本特征向量与其所属的类别映射到一起（需要调用方法来计算每个样本文本特征向量到每个中心的距离，返回最近的中心ID）；

（4）使用reduce操作按照映射到的中心ID来汇合，汇合的过程中，特征向量每个维度上数值都将累加，计数器也随之增长。

然后再使用map操作，计算平均值，即可得到新的k个中心；

（5）计算新的k个中心与旧的k个中心的距离和，若为0（或小于某一阈值）则停止迭代，输出聚类结果，程序结束，否则继续迭代，重复3、4、5。

代码见附录。

3实验结果统计

经统计，一共12142条样本文本，聚类到k=10类，其中分类是0~9的分别为542、2172、1652、2698、30、2386、303、506、976、877条。

Hadoop的结果：

图2Hadoop结果

Spark的结果：

图3Spark结果

4对两个平台上实现方法的对比

（1）Hadoop的各项时间的统计信息如下（单位ms）：

readingfilesandcreatingdicttime:

73441

generatingvectorstime:

7133

totaliteration:

10

firstitertime:

832246

averageitertime:

540034

totaltime:

5204791

（2）Spark的各项时间的统计信息如下（单位ms）：

readingfilestime:

321

totaliteration:

8

firstitertime:

30428

averageitertime:

15000

totaltime:

120132

列表如下：

单位：

ms

读文件时间

迭代次数

首次迭代时间

平均迭代时间

总时间

Hadoop

73441

10

832246

540034

5204791

Spark

321

8

30428

15000

120132

表6Hadoop与Spark对比

不难看出Spark平台的效率和速度都要比Hadoop平台高出很多。

5收获与建议

通过本学期“网络大数据管理理论和应用”的学习，我了解到关于大数据、分布式平台、语义计算等比较前沿的知识。

比如在学习过程中，我了解到通过大数据分析处理用户行为模式，向用户推荐广告，然后通过销量的变化来判断广告推荐系统的好坏这样一种算法，对于这种算法我就比较感兴趣，所以通过课程的学习我拓展了自身的视野。

通过老师和助教的指导，我们还搭建了hadoop和spark平台，进行了基本的mapreduce编程，为以后深入学习打下了基础。

在学习过程中，我们还锻炼了做报告的能力，分享了自学的心得。

至于建议方面，我觉得做报告的环节，是否可以限定在相关领域的核心期刊或会议论文上，这样学术性会更好，更能锻炼大家的学习和报告能力。

附录

objectSparkKMeans{

//String转Vector

defparseVector（line:

String）:

Vector={

returnnewVector（line.split（''）.map（_.toDouble））

}

//计算最近中心点

defclosestCenter（p:

Vector,centers:

Array[Vector]）:

Int={

varbestIndex=0

varbestDist=p.squaredDist（centers（0））//差平方之和

for（i<-1untilcenters.length）{

valdist=p.squaredDist（centers（i））

if（dist

bestDist=dist

bestIndex=i

}

returnbestIndex

}

//主方法

defmain（args:

Array[String]）{

valsc=newSparkContext（"local","SparkKMeans"）

System.out.println（"readingfilesstart..."）

valt1=System.currentTimeMillis（）

vallines=sc.textFile（"/home/fabkxd/Documents/kmeans_data/inputfile.txt"）

valpoints=lines.map（parseVector（_））.cache（）//文本中每行代表一个样本，转换为Vector

valt2=System.currentTimeMillis（）

System.out.println（"readingfilesdone...\n"）

valdimensions=5100//节点的维度

valk=10//聚类个数

System.out.println（"initialcentersstart..."）

//随机初始化k个中心节点

valrand=newRandom（42）

varcenters=newArray[Vector]（k）

for（i<-0untilk）

centers（i）=Vector（dimensions,_=>rand.nextDouble）

System.out.println（"initialcentersdone...\n"）

System.out.println（"kmeansiterationsstart..."）

varfirst:

Long=0

valto1=System.currentTimeMillis（）

variter:

Int=1

varover:

Int=1

for（i<-1toiterations）{

if（over==1）{

System.out.println（"\titeration"+i+"start..."）

varti1=System.currentTimeMillis（）

//对每个点计算距离其最近的中心点

valmappedPoints=points.map{p=>（closestCenter（p,centers）,（p,1））}

valnewCenters=mappedPoints.reduceByKey{

case（（sum1,count1）,（sum2,count2））=>（sum1+sum2,count1+count2）//（向量相加,计数器相加）

}.map{

case（id,（sum,count））=>（id,sum/count）//根据前面的聚类，用平均值算法重新计算中心节点的位置

}.collect

varcdist:

Double=0

//计算收敛距离并更新中心节点

for（（id,value）<-newCenters）{

cdist+=value.squaredDist（centers（id））

centers（id）=value

}

System.out.println（"\t\tdistance:

"+cdist）

varti2=System.currentTimeMillis（）

if（first==0）

first=ti2-ti1

System.out.println（"\titeration"+i+"done..."）

if（cdist<0.3）{

mappedPoints.saveAsTextFile（"output"）

iter=i

over=0

}

valto2=System.currentTimeMillis（）

System.out.println（"kmeansiterationsdone..."）

System.out.println（"readingfilestime:

"+（t2-t1））

System.out.println（"totaliteration:

"+iter）;

System.out.println（"firstitertime:

"+first）;

System.out.println（"averageitertime:

"+（to2-to1）/iter）;

System.out.println（"totaltime:

"+（to2-to1））;

}

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: Hadoop 作业

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：Hadoop大作业.docx
链接地址：https://www.bdocx.com/doc/6059320.html

Hadoop大作业.docx

热门标签