hadoop日志系统实用word文档 23页Word格式文档下载.docx
- 文档编号:13771720
- 上传时间:2022-10-13
- 格式:DOCX
- 页数:18
- 大小:28.20KB
hadoop日志系统实用word文档 23页Word格式文档下载.docx
《hadoop日志系统实用word文档 23页Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《hadoop日志系统实用word文档 23页Word格式文档下载.docx(18页珍藏版)》请在冰豆网上搜索。
日志分析;
Hadoop;
集群;
vmware
中图分类号:
TP311文献标识码:
A文章编号:
1009-3044(201X)34-7647-041概述
日志文件是由系统或者应用程序产生的,用于记录系统和应用程序的操作事件如各种服务的启动、运行、关闭等信息。
通过对日志文件的分析可以获得很多有价值的数据也能实现对系统安全、性能等方面的监控。
Web日志[1]是由Web服务器产生的,随着社交网络的兴起,Web2.0时代的到来,网站的用户访问量的成级数增长,产生的日志文件大幅增多。
传统的日志文件分析方式已经无法满足大数据量日志分析的需求。
该文将以Web日志文件为例,利用Hadoop集群构建一个分布式计算平台为大数据日志文件的分析提供一个可行的解决方案,以提高了日志分析的效率,为进一步的大数据分析的提供参考。
现今日志文件分析方案是对大的日志文件先进行分割,然后对分割后的日志文件进行分析,分析方法采用文本分析及模式匹配等,最常见的是采用awk、python、perl。
这种分析方式面对大数据的日志文件分析效率低下,耗时长。
王潇博提出了基于挖掘算法的日志分析方式,并设计了TAT系统[1]。
对于Web分析除了对Web日志本身进行分析外还可以主动收集访问信息,然后将信息存于关系型数据库中。
这种方式最常见的是GoogleAnalytics、XX统计等。
这种方式将会影响网站的性能,延长网站的加载时间。
其次如果直接采用第三方的统计,还将会泄露网站的信息。
当访问量高时,基于关系型数据库分析的方式将会受到数据库性能的制约。
钱秀槟,刘国伟,李锦川等人提出了基于模式匹配算法的Web应用日志分析系统
[2]。
2Hadoop集群系统概述
篇二:
Hadoop开发日志
Hadoop开发日志
一、开发环境配置
1、系统环境
(1)硬件平台
处理器:
Pentium(R)Dual-CoreCPUE5500@2.80GHz×
2,内存:
2GB
(2)软件平台
Ubuntu11.10
2、环境
二、ssh,jdk7,jre7,tomcat7,netbeans7配置完成!
201X.11.1920:
20
防火墙启动sudoufwenable/disable
单节点测试成功!
201X.11.21
Hadoop环境搭建——单节点篇
自漫聊1.0发布以来,研究Hadoop也有一段时间了,目前环境已基本搭建好,规模为15台的小型集群,昨晚测试时是用wordcount统计一个1.2G的log文件,总耗时2分16秒,虽然测试文件不大,但其性能的优越性已经体现出来了。
闲话不多说了,进正题。
注:
本文的环境搭建是针对双系统和linux系统的,而非win下的虚拟机!
流程:
装机阶段:
安装ubuntu,jdk和hadoop
创建一个名为hadoop的用户和用户组
配置阶段:
配置环境变量
创建sshkey
配置hadoop
运行测试阶段:
格式化namenode
启动hadoop
跑wordcount
准备:
ubuntu10.10
hadoop0.21.0
jdk1.6.0_23forlinux
1、安装ubuntu10.10
wubi的傻瓜式安装应该不用我多说了吧,在win下用虚拟光驱载入,然后执行.......另外补充下,安装时最好断开网络连接(我们是直接拔的网线),因为ubuntu安装过程中需要更新一些语言包之类的东西,那些东西与我们要做的事没什么关系,下载时间又长,所以建议不更新。
2、安装jdk1.6.0_23
有多种方法,此处只介绍一种
1、在usr下面新建一个文件夹Java,然后将jdk复制过来(也可直接mv过来)
sudomkdir/usr/Java
sudocpjdk的路径/usr/Java
2、进入到Java目录下,改变文件权限为可执行
cd/usr/Java
sudochmodu+xjdk1.6.0_23.bin
3、执行安装
sudo./jdk1.6.0_23.bin
(现象为Unpacking....加一连串解压信息)
3、安装hadoop0.21.0
1、将hadoop0.21.0.tar.gz复制到usr下面的local文件夹内(也可mv)
sudocphadoop的路径/usr/local
2、进入到local目录下,解压hadoop0.21.0.tar.gz
cd/usr/local
sudotar-xzfhadoop0.21.0.tar.gz
3、为了方便管理,将解压后的文件夹名改为hadoop
sudomvhadoop0.21.0hadoop
4、创建一个名为hadoop的用户和用户组
1、创建一个名为hadoop的用户组
sudoaddgrouphadoop
2、创建一个名为hadoop的用户,归到hadoop用户组下
sudoadduser--ingrouphadoophadoop
(注1:
前一个hadoop为用户组名,后面的是用户名,之所以名字一样是为了方便统一管理
注2:
执行后会有一些信息需要填写,可以不填,都敲回车,用系统默认的即可,大概5个吧)
3、用gedit打开etc下的sudoers文件
sudogedit/etc/sudoers
4、在rootALL=(ALL)ALL下面添加如下一行,然后保存关闭gedit
hadoopALL=(ALL)ALL
网上有文档上是说先切换到root用户,然后修改sudoers的权限,再打开添加hadoopALL=(ALL)ALL,然后再将权限改回为只读,这样就要特别注意一
定要将权限改回为只读,不然“sudo”命令就无法使用了,很悲剧的说
添加hadoopALL=(ALL)ALL的意义在于能让hadoop用户使用“sudo”命令)
1、配置环境变量
1、用gedit打开etc下的profile文件
sudogedit/etc/profile
2、在文件最后加入如下几行
export
CLASSPATH=.:
/usr/Java/jdk1.6.0_23/lib:
/usr/Java/jdk1.6.0_23/jre/lib:
$CLASSPATHexport
PATH=.:
/usr/Java/jdk1.6.0_23/bin:
/usr/Java/jdk1.6.0_23/jre/bin:
/usr/local/hadoop/bin:
$PATH
以上所有jre项都不是必需的,可以不要
在win中环境变量的值是以“;
”号隔开的,而这里是“:
”
注3:
等号后面有个“.”别丢了,它表示当前目录)
3、保存后关闭gedit,并重启机器
sudoreboot
(注:
网上也有说用source命令使环境变量立即生效的,但是本人在
实际操作时出了几次问题,所以建议重启机器最保险)
4、重启后用hadoop用户登录,验证配置是否成功
java-version(此语句执行后如显示了jdk版本的话说明配置成功,如果没有则需检查profile中路径是否正确)
最好是用hadoop用户登录,因为以下步骤都是以此为前提的)
2、创建ssh-key
1、确保网络通畅,然后装载ssh服务
sudoapt-getinstallopenssh-server
如果此语句执行失败且结果为“....包被占用”的话,那么应该是ubuntu的“更新管理器”正在后台更新,你可以选择等待或者关闭更新,更新管理器在“系统”菜单中,具体位置忘了.....)
2、创建ssh-key,为rsa(网上文档中也有dsa的)
ssh-keygen-trsa--P
此语句网上文档为ssh-keygen-trsa-P"
"
,效果一样
此语句执行后会要你填写key的保存位置,直接照着系统给出的那个默认位置填,也就是括号里的那个路径,如果全都照此文档操作的话那么括号中路径应该为
/home/hadoop/.ssh/id_rsa"
)
3、将此ssh-key添加到信任列表中,并启用此ssh-key
cat/home/hadoop/.ssh/id_rsa.pub>
>
/home/hadoop/.ssh/authorized_keyssudo/etc/init.d/sshreload
3、配置hadoop
1、进入到hadoop目录下,配置conf目录下的hadoop-env.sh中的JAVA_HOMEcd/usr/local/hadoop
sudogeditconf/hadoop-env.sh
(打开后在文档的上部某行有“#exportJAVA_HOME=...”字样的地方,去掉“#”,然后在等号后面填写你的jdk路径,完全按此文档来的话应改为"
JAVA_HOME=/usr/Java/jdk1.6.0_23"
)
2、配置conf目录下的core-site.xml
sudogeditconf/core-site.xml
(打开后标签<
configuration>
<
/configuration>
中是空的,所以在空的地方加入如下配置)
Xml代码
1.<
property>
2.<
name>
fs.default.name<
/name>
3.<
value>
hdfs:
//localhost:
9000<
/value>
4.<
/property>
5.
6.<
7.<
dfs.replication<
8.<
1<
9.<
10.
11.<
12.<
hadoop.tmp.dir<
13.<
/home/hadoop/tmp<
14.<
3、配置conf目录下的mapred-site.xml
sudogeditconf/mapred-site.xml
中也是空的,添加如下配置)
mapred.job.tracker<
localhost:
9001<
运行测试阶段:
1、格式化namenode(首次运行必需滴)
1、保证此时在hadoop目录下,如不在请先进入h
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- hadoop日志系统实用word文档 23页 hadoop 日志 系统 实用 word 文档 23