书签分享收藏举报版权申诉 / 11

立即下载加入VIP,免费下载

当前位置：首页 > 高等教育 > 管理学 > 全国职业院校技能大赛高职组大数据技术与应用赛项赛题任务书5.docx

全国职业院校技能大赛高职组大数据技术与应用赛项赛题任务书5.docx

文档编号：8461991
上传时间：2023-01-31
格式：DOCX
页数：11
大小：21.95KB

《全国职业院校技能大赛高职组大数据技术与应用赛项赛题任务书5.docx》由会员分享，可在线阅读，更多相关《全国职业院校技能大赛高职组大数据技术与应用赛项赛题任务书5.docx（11页珍藏版）》请在冰豆网上搜索。

全国职业院校技能大赛高职组大数据技术与应用赛项赛题任务书5.docx

全国职业院校技能大赛高职组大数据技术与应用赛项赛题任务书5

2022年全国职业院校技能大赛

高职组

“大数据技术与应用”

赛项赛卷（5卷）

任

务

书

参赛队编号：

背景描述

大数据时代，电商经营模式发生很大改变。

在传统运营模式中，缺乏数据积累，人们在做出一些决策行为过程中，更多是凭借个人经验和直觉，发展路径比较自我封闭。

而大数据时代，为人们提供一种全新的思路，通过大量的数据分析得出的结果将更加现实和准确。

商家可以对客户的消费行为信息数据进行收集和整理，比如消费者购买产品的花费、选择产品的渠道、偏好产品的类型、产品回购周期、购买产品的目的、消费者家庭背景、工作和生活环境、个人消费观和价值观等。

通过数据追踪，知道顾客从哪儿来，是看了某网站投放的广告还是通过朋友推荐链接，是新访客还是老用户，喜欢浏览什么产品，购物车有无商品，是否清空，还有每一笔交易记录，精准锁定一定年龄、收入、对产品有兴趣的顾客，对顾客进行分组、标签化，通过不同标签组合运用，获得不同目标群体，以此开展精准推送。

因数据驱动的零售新时代已经到来，没有大数据，我们无法为消费者提供这些体验，为完成电商的大数据分析工作，你所在的小组将应用大数据技术，以Scala作为整个项目的基础开发语言，基于大数据平台综合利用Spark、Flink、Vue.js等技术，对数据进行处理、分析及可视化呈现，你们作为该小组的技术人员，请按照下面任务完成本次工作。

模块A：

大数据平台搭建（容器环境）（15分）

环境说明：

服务端登录地址详见各模块服务端说明。

补充说明：

宿主机可通过Asbru工具或SSH客户端进行SSH访问；

相关软件安装包在宿主机的/opt目录下，请选择对应的安装包进行安装，用不到的可忽略；

所有模块中应用命令必须采用绝对路径；

从本地仓库中拉取镜像，并启动3个容器

进入Master节点的方式为

dockerexec–itmaster/bin/bash

进入Slave1节点的方式为

dockerexec–itslave1/bin/bash

进入Slave2节点的方式为

dockerexec–itslave2/bin/bash

同时将/opt目录下的所有安装包移动到3个容器节点中。

任务一：

HadoopHA安装配置

本环节需要使用root用户完成相关配置，安装Hadoop需要配置前置环境。

命令中要求使用绝对路径，具体要求如下:

1、将Master节点JDK安装包解压并移动到/usr/local/src路径下，将命令复制并粘贴至对应报告中；

2、请完成host相关配置，将三个节点分别命名为master、slave1、slave2，配置SSH免密登录，从Master节点复制JDK环境变量文件以及JDK解压后的安装文件到Slave1、Slave2节点，配置java环境变量，配置完毕后在Master节点分别执行“java”和“javac”命令，将命令行执行结果分别截图并粘贴至对应报告中；

3、Zookeeper配置完毕后，分发Zookeeper，分别在3个节点启动Zookeeper，并在Slave2节点查看ZooKeeper运行状态，将查看命令和结果复制并粘贴至对应报告中；

4、ZooKeeper、HadoopHA配置完毕后，请将dfs.ha.namenodes.hadoopcluster设置为nn1,nn2并在Master节点启动Hadoop，并查看服务（nn1,nn2）进程状态，并将查看命令及结果复制并粘贴至对应报告中；

5、HadoopHA配置完毕后，在Slave1节点查看服务进程，将查看命令及结果复制并粘贴至对应报告中。

任务二：

Flume安装配置

本环节需要使用root用户完成相关配置，已安装Hadoop及需要配置前置环境，具体要求如下：

1、设置Flume环境变量，并使环境变量只对当前root用户生效，将变量内容复制并粘贴至对应报告中；

2、完善相关配置，监控Hadoop的namenode日志，传输到HDFS的是/tmp/flume目录，将conf-file中的修改内容复制并粘贴至对应报告中；

3、启动Flume传输Hadoop日志，查看HDFS中/tmp/flume目录下生成的文件，将查看命令及结果（至少10条结果）复制并粘贴至对应报告中。

任务三：

Sqoop安装配置

本环节需要使用root用户完成相关配置，已安装Hadoop及需要配置前置环境，具体要求如下：

1、将Master节点Sqoop安装包解压，修改解压后文件夹名为sqoop并移动到/usr/local/src路径下，将全部命令复制粘贴至对应报告中；

2、完善相关配置，修改Sqoop环境变量，并使环境变量只对当前root用户生效,并将环境变量修改内容复制粘贴至对应报告中；

3、测试Sqoop连接Master节点的MySQL数据库是否成功并展示所有的database，并将连接命令复制粘贴至对应报告中。

模块B：

离线数据处理（25分）

环境说明：

服务端登录地址详见各模块服务端说明。

补充说明：

各主机可通过Asbru工具或SSH客户端进行SSH访问；

Master节点MySQL数据库用户名/密码：

root/123456（已配置远程连接）；

Hive的元数据启动命令为:

nohuphive--servicemetastore&

Hive的配置文件位于/opt/apache-hive-2.3.4-bin/conf/

Spark任务在Yarn上用Client运行，方便观察日志。

任务一：

数据抽取

使用Sqoop工具，将MySQL的shtd_store库中表CUSTOMER、NATION、PART、PARTSUPP、REGION、SUPPLIER的数据全量抽取到Hive的ods库中对应表customer，nation，part，partsupp，region，supplier中，将表ORDERS、LINEITEM的数据增量抽取到Hive的ods库中对应表ORDERS，LINEITEM中。

1、抽取shtd_store库中CUSTOMER的全量数据进入Hive的ods库中表customer。