(高职)GZ033大数据应用开发赛项规程(师生同赛).docx
- 文档编号:30849571
- 上传时间:2024-02-15
- 格式:DOCX
- 页数:90
- 大小:189.40KB
(高职)GZ033大数据应用开发赛项规程(师生同赛).docx
《(高职)GZ033大数据应用开发赛项规程(师生同赛).docx》由会员分享,可在线阅读,更多相关《(高职)GZ033大数据应用开发赛项规程(师生同赛).docx(90页珍藏版)》请在冰豆网上搜索。
全国职业院校技能大赛赛项规程
赛项名称:
大数据应用开发
英文名称:
BigDataApplicationDevelopment
赛项组别:
高等职业教育(师生同赛)
赛项编号:
GZ033
一、赛项信息
赛项类别
☑每年赛隔年赛(单数年/双数年)
赛项组别
□中等职业教育☑高等职业教育
□学生赛(□个人/□团体)□教师赛(试点)☑师生同赛(试点)
涉及专业大类、专业类、专业及核心课程
专业大类
专业类
专业名称
核心课程
(对应每个专业,明确涉及的专业核心课程)
51电子与
信息大类
5102计算机
类
510205大数据
技术
数据采集技术
数据预处理技术
大数据分析技术应用
数据可视化技术与应用
数据挖掘应用
大数据平台部署与运维
510201计算机
应用技术
数据库技术及应用
前端设计与开发
信息采集技术
数据分析方法
系统部署与运维
510202计算机
网络技术
Linux操作系统管理
程序设计基础
数据库应用技术
510203软件技
术
程序设计基础
数据库技术
面向对象程序设计
数据结构
510206云计算
Linux操作系统
1
技术应用
程序设计基础
数据库技术
Web应用开发
510209人工智
能技术应用
程序设计基础
Linux操作系统
数据库技术
人工智能数据服务
510211工业互
联网技术
程序设计基础
数据库应用基础
工业互联网数据采集技术
工业互联网数据分析技术
数据采集与处理
对接产业行业、对应岗位(群)及核心能力
产业行业
岗位(群)
核心能力
(对应每个岗位(群),明确核心能力要求)
战略性新
兴产业-新
一代信息
技术
大数据实施与运维
大数据平台搭建部署与基本使用,以及大数据集
群运维
大数据平台管理、大数据技术服务
数据分析处理
分析用户业务需求,制订大数据项目解决方案
开发数据采集、抽取、清洗、转换与加载等数据预处理模型
基于行业应用与典型工作场景,解决业务需求
大数据分析与可视化
安装部署与使用数据分析工具,运用大数据分析
平台完成大数据分析任务
数据可视化设计,开发应用程序进行数据可视化
展示,撰写数据可视化结果分析报告
基于行业应用与典型工作场景,解决业务需求
程序设计
数据库应用、前端开发等程序设计能力
数据采集与分析
数据采集、使用工具进行数据分析
信息系统运行维护
信息系统部署与运维
2
二、竞赛目标
“十四五”时期,大数据产业对经济社会高质量发展的赋能作用更加突显,大数据已成为催生新业态、激发新模式、促进新发展的技术引擎。
习近平总书记指出“大数据是信息化发展的新阶段”,“加快数字化发展,建设数字中国”成为《中华人民共和国国民经济和社
会发展第十四个五年规划和2035年远景目标纲要》的重要篇章。
本赛项旨在落实国家“建设数字中国”战略,协同推动大数据相关产业的创新与发展,大力推进大数据技术及相关专业的技术技能型人才培养,全面提升相关专业毕业生的综合能力,展现选手团队合作、工匠精神等职业素养,赋能经济社会高质量发展。
竞赛内容结合当前大数据相关产业中的新技术、新要求如数据湖、OLAP数据库应用等,全面检验参赛选手的工程实践能力和创新能力,推进教学过程与生产过程对接、课程内容与职业标准对接、专业设置与产业需求对接,促进职普融通、产教融合、科教融汇,引领专业建设和教学改革。
竞赛内容围绕大数据相关产业岗位的实际技能要求进行设计,通过竞赛搭建校企合作的平台,强化竞赛成果转化,促进相关教材、资源、师资、认证、实习就业等方面的全方位建设,满足产教协同育人目标,为国
家战略规划提供大数据领域高素质技能型人才。
三、竞赛内容
本赛项涉及的典型工作任务包括大数据平台搭建(容器环境)、离线数据处理、数据挖掘、数据采集与实时计算、数据可视化、综合分析、职业素养,引入行业内较为前沿的数据湖架构作为创新、创意
的范围与方向,考查的技术技能如下:
(一)大数据平台搭建(容器环境):
Docker容器基础操作、H
adoop完全分布式安装配置、HadoopHA安装配置、SparkonYarn
3
安装配置、FlinkonYarn安装配置、Hive安装配置、Flume安装配置、ZooKeeper安装配置、Kafka安装配置、HBase分布式安装配置、
ClickHouse单节点安装配置、Hudi安装配置。
(二)离线数据处理:
Scala应用开发、Pom文件配置、Maven本地仓库配置使用、基于Spark的数据清洗处理方法、基于Hive的数据清洗处理方法、基于Hudi的数据清洗处理方法、数据仓库基本架构及概念、数据湖基本架构及概念、MySQL基本操作、ClickHouse
基本操作、Azkaban基本操作、DolphinScheduler基本操作。
(三)数据挖掘:
特征工程应用、SparkML机器学习库应用开发、推荐算法的召回和排序、回归模型、聚类模型、决策树模型、随
机森林模型应用。
(四)数据采集与实时计算:
Scala应用开发、Pom文件配置、Maven本地仓库配置使用、基于Flume及Kafka的数据采集方法、基于Flink的实时数据处理方法、HBase基本操作、Redis基本操作、M
ySQL基本操作。
(五)数据可视化:
Vue.js框架应用开发、ECharts组件应用开发,会使用ECharts绘制柱状图、折线图、折柱混合图、玫瑰图、气
泡图、饼状图、条形图、雷达图、散点图等图表。
(六)综合分析:
依据整体项目过程,在综合理解业务的基础上,
根据题目要求进行综合分析。
(七)职业素养:
团队分工明确合理、操作规范、文明竞赛。
1、竞赛内容结构、成绩比例如下:
4
表3-1竞赛内容结构和成绩比例
序号
竞赛任务
成绩比例
考核内容
1
大数据平台搭建
(容器环境)
15%
选手在容器环境下对大数据平台及相关组件
的安装、配置、可用性验证等内容。
2
离线数据处理
25%
选手对Hadoop平台、Spark平台、Hive数据仓库、Hudi数据湖、任务调度工具等的综合应用能力,使用Scala开发语言,完成离线数据抽取、数据清洗、数据指标统计等操作,
并存入MySQL、ClickHouse中。
3
数据挖掘
10%
选手运用常用的机器学习方法对数据进行数
据挖掘分析。
4
数据采集与实时
计算
20%
选手对Flink平台、Flume组件、Kafka组件等的综合应用能力,基于Flume和Kafka进行实时数据采集,使用Scala开发语言,完成实时数据流相关数据指标的分析、计算等
操作,并存入HBase、Redis、MySQL中。
5
数据可视化
15%
选手基于前端框架Vue.js和后端REST风格的数据接口,使用JavaScript语言将数据分
析结果以图表的形式进行呈现、统计
6
综合分析
10%
选手对大数据技术的业务分析、技术分析及
报告撰写能力。
7
职业素养
5%
团队分工明确合理、操作规范、文明竞赛。
5
2、赛项模块、比赛时长及分值配比如下:
表3-2赛项模块比赛时长及分值配比
模块
主要内容
比赛时长
分值
模块一
大数据应
用开发
竞赛以电商大数据及工业大数据为
业务背景,主要设置以下竞赛任务:
任务A:
大数据平台搭建(容器环
境)
在容器环境下对大数据平台及相关组件的安装、配置、可用性验证等
内容。
任务B:
离线数据处理
对Hadoop平台、Spark平台、Hive数据仓库、Hudi数据湖、任务调度工具等的综合应用能力,使用Scala开发语言,完成离线数据抽取、数据清洗、数据指标统计等操作,并
存入MySQL、ClickHouse中。
任务C:
数据挖掘
运用常用的机器学习方法对数据进
行数据挖掘分析。
任务D:
数据采集与实时计算
对Flink平台、Flume组件、Kafka组件等的综合应用能力,基于Flume和Kafka进行实时数据采集,使用Scala开发语言,完成实时数据流相
关数据指标的分析、计算等操作,
并存入HBase、Redis、MySQL中。
任务E:
数据可视化
基于前端框架Vue.js和后端REST
8小时
100分
6
风格的数据接口,使用JavaScript语言将数据分析结果以图表的形式
进行呈现、统计。
任务F:
综合分析
对大数据技术的业务分析、技术分
析及报告撰写能力。
任务G:
职业素养
综合职业素养,包括团队分工明确
合理、操作规范、文明竞赛等内容。
四、竞赛方式
本竞赛为线下比赛,组队方式为师生同赛,具体要求如下:
(一)参赛学生须为高等职业学校专科、高等职业学校本科全日制在籍学生,五年制高职四、五年级学生也可报名参赛;参赛教师须为校内专任教师,并提供近半年的社保或纳税证明。
凡在往届全国职业院校技能大赛中获一等奖的选手,不能再参加同一项目同一组别的
比赛。
(二)每支参赛队由4名选手组成,其中1名教师,3名学生。
本赛项为师生同赛不设指导教师,报名获得确认后不得随意更换。
(三)本赛项为单一场次,所有参赛队在现场根据给定的任务说明,在8小时内相互配合,采用小组合作的形式完成任务,最后以提交的
结果文档作为最终评分依据。
五、竞赛流程
(一)竞赛时间表
7
表5-1竞赛时间
日期
时间
内容
竞赛前两日
18:
00之前
裁判报到
19:
00—20:
00
裁判工作会议
竞赛前一日
12:
00之前
各参赛队报到
10:
00—11:
00
工作人员(含监考)培训会
15:
30—16:
00
赛前领队会
16:
00—16:
30
参赛队熟悉比赛场地
17:
00—18:
00
现场裁判赛前检查,封闭赛场
竞赛当日
07:
00—08:
00
参赛队集合前往比赛现场
08:
00—08:
10
赛场检录
08:
10—08:
30
一次加密:
参赛队抽取参赛编号
08:
30—08:
45
二次加密:
参赛队抽取赛位号
08:
45—09:
00
参赛队进入比赛赛位,进行赛前软、硬件检查、
题目发放
09:
00—17:
00
竞赛进行
17:
00—17:
20
收取各参赛队赛题及比赛结果文档
17:
00—19:
00
申诉受理
19:
00—19:
30
三次加密:
竞赛结果等文件加密
19:
30—23:
00
成绩评定与复核
23:
00—23:
30
加密信息解密
23:
30—24:
00
成绩汇总及报送
竞赛后一日
08:
00—11:
00
成绩公布
11:
00—12:
00
闭赛式
8
(二)竞赛流程图
图5-1竞赛流程
9
六、竞赛规则
(一)选手报名:
参赛学生须为高等职业学校专科、高等职业学校本科全日制在籍学生,五年制高职四、五年级学生也可报名参赛。
参赛教师须为校内专任教师,并提供近半年的社保或纳税证明。
凡在往届全国职业院校技能大赛中获一等奖的选手,不能再参加同一项目
同一组别的比赛。
(二)熟悉场地:
竞赛前1日安排各参赛队领队、参赛选手熟悉
赛场。
(三)入场规则:
参赛选手按规定时间到达指定地点,必须携带参赛证件,进行检录、一次加密、二次加密等流程,最终确定工位,选手迟到10分钟取消比赛资格。
严禁参赛选手、赛项裁判、工作人员私自携带通讯、摄录设备进入比赛场地。
参赛选手所需的硬件、软件和辅助工具统一提供,参赛队不得使用自带的任何有存储功能的设备,如手机、U盘、移动硬盘等。
参赛队在赛前领取比赛任务并进入
比赛工位,比赛正式开始后方可进行相关操作。
(四)赛场规则:
在比赛过程中,参赛选手如有疑问,应举手示意,现场裁判应按要求及时予以答疑。
如遇设备或软件等故障,参赛选手应举手示意,现场裁判、技术人员等应及时予以解决。
确因计算机软件或硬件故障,致使操作无法继续,经裁判长确认,予以启用备用设备。
参赛选手不得因各种原因提前结束比赛。
如确因不可抗因素需要离开赛场的,须向现场裁判员举手示意,经裁判员许可并完成记
录后,方可离开。
凡在竞赛期间内提前离开的选手,不得返回赛场。
(五)离场规则:
比赛时间结束,选手应全体起立,结束操作。
参赛选手要确认已成功提交竞赛要求的文档,裁判员与参赛选手一起
签字确认,经工作人员查收清点所有文档后方可离开赛场,离开赛场
10
时不得带走任何资料。
(六)成绩评定与结果公布:
比赛结束,经加密裁判对各参赛选手提交的竞赛结果进行第三次加密后,评分裁判方可入场进行成绩评判。
最终竞赛成绩经复核无误,由裁判长、监督仲裁长签字确认后,
以纸质形式向全体参赛队进行公布,并在闭赛式上予以宣布。
(七)其它未尽事宜,将在赛前向各领队做详细说明。
七、技术规范
本赛项引用的国际、国家、行业技术、职业资格标准与规范如下:
表7-1基础标准
标准号/规范简称
名称
GB/T11457-2006
信息技术软件工程术语
GB8566-88
计算机软件开发规范
GB/T12991.1-2008
信息技术数据库语言SQL第1部分:
框架
GB/Z21025-2007
XML使用指南
GB/T28821-2012
关系数据管理系统技术要求
LD/T81.1-2006
职业技能实训和鉴定设备通用技术规范
表7-2大数据技术相关标准
标准号/规范简称
名称
GB/T35295-2017
信息技术大数据术语
GB/T37721-2019
信息技术大数据分析系统功能要求
GB/T37722-2019
信息技术大数据存储与处理系统功能要求
GB/T38672-2020
信息技术大数据接口基本要求
GB/T38673-2020
信息技术大数据大数据系统基本要求
GB/T38675-2020
信息技术大数据计算系统通用要求
GB/T38633-2020
信息技术大数据系统运维和管理功能要求
GB/T41778-2022
信息技术工业大数据术语
GB/T41818-2022
信息技术大数据面向分析的数据存储与检索技术要求
表7-3软件开发与软件工程相关标准
11
标准号/规范简称
名称
GB/T14079-1993
软件维护指南
GB/T15853-1995
软件支持环境
GB/T17544-1998
信息技术软件包质量要求和测试
GB/T8566-2007
信息技术软件生存周期过程
GB/T22032-2021
系统与软件工程系统生存周期过程
八、技术环境
(一)竞赛场地
竞赛现场设置竞赛区、裁判区、技术支持区、服务区等。
1.竞赛区域:
每个竞赛工位设工位编号,面积在9㎡左右,
工位之间由隔板隔开,确保互不干扰。
2.裁判区:
供裁判工作及休息,配备满足需要的办公设备。
3.技术支持区:
供技术支持人员工作及休息,为竞赛提供技
术支持。
4.服务区:
提供医疗等服务保障。
(二)技术平台
1.竞赛设备
表8-1竞赛设备
序号
设备名称
数量
备注
1
服务器
每组1台
CPU:
Intel至强银牌4210及以上
内存:
不少于128GB
硬盘:
不少于1TB
网卡:
千兆
2
大数据赛训
管理系统
每组1套
该系统基于主流云原生技术、大数据技术构建,旨在为学生提供快捷、便利的大数据集群操作环境,帮助他们
更好地掌握大数据相关技术和应用。
该系统应基于微服
12
务构建,以经典的微服务分层方式划分不同的服务层级,利用图形化的工作负载编辑模式快速进行系统的部署和服务管理,有效展示各服务的容器信息,方便实时进行系统运维。
系统能够构建大数据平台搭建、数据处理、数据分析、数据可视化等教学实训模块,快速开展教学、实训及竞赛活动,系统应能够生成命令行、桌面级容器环境,可通过不同模式进行访问,方便学生进行集群调试和代码开发。
通过使用该系统,学生可以深入了解大数据技术的核心思想和应用场景,增强自己的数据分析和处理能力,提高对数据的认识和运用水平。
系统应支
持模拟竞赛全业务流程,提供大数据竞赛操作环境。
3
PC机
每组4台
CPU:
i5及以上
内存:
不少于16GB
硬盘:
不少于500GB
显示器:
1920*1080及以上
4
交换机
每组1台
8口及以上千兆交换机
2.软件环境
表8-2软件环境
设备类型
软件类别
软件名称、版本号
服务器
大数据集群操作系统
CentOS7
容器环境
Docker-CE20.10
大数据平台组件
Hadoop3.1.3
Yarn3.1.3
ZooKeeper3.5.7
Hive3.1.2
Hudi0.12.0
ClickHouse21.9.4
JDK1.8
Flume1.9.0
13
Kafka2.4.1
Spark3.1.1
Flink1.14.0
Redis6.2.6
HBase2.2.3
Azkaban3.84.4
DolphinScheduler3.1.4
关系型数据库
MySQL5.7
PC机
PC操作系统
Ubuntu18.0464位
浏览器
Chrome
开发语言
Scala2.12
JavaScript
开发工具
IDEA2022
(CommunityEdition)
VisualStudioCode1.69
SSH工具
Asbru-cm或UbuntuSSH客户端
数据库工具
MySQLWorkbench
接口测试工具
Postman
数据可视化框架及组件
Vue.js3.2
ECharts5.1
截图工具
Ubuntu系统自带
文档编辑器
WPSLinux版
输入法
搜狗拼音输入法Linux版
14
九、竞赛样题
背景描述
大数据时代背景下,电商经营模式发生很大改变。
在传统运营模式中,缺乏数据积累,人们在做出一些决策行为过程中,更多是凭借个人经验和直觉,发展路径比较自我封闭。
而大数据时代,为人们提供一种全新的思路,通过大量的数据分析得出的结果将更加现实和准确。
商家可以对客户的消费行为信息数据进行收集和整理,比如消费者购买产品的花费、选择产品的渠道、偏好产品的类型、产品回购周期、购买产品的目的、消费者家庭背景、工作和生活环境、个人消费观和价值观等。
通过数据追踪,知道顾客从哪儿来,是看了某网站投放的广告还是通过朋友推荐链接,是新访客还是老用户,喜欢浏览什么产品,购物车有无商品,是否清空,还有每一笔交易记录,精准锁定一定年龄、收入、对产品有兴趣的顾客,对顾客进行分组、标签化,
通过不同标签组合运用,获得不同目标群体,以此开展精准推送。
因数据驱动的零售新时代已经到来,没有大数据,我们无法为消费者提供这些体验,为完成电商的大数据分析工作,你所在的小组将应用大数据技术,以Scala作为整个项目的基础开发语言,基于大数据平台综合利用Hive、Spark、Flink、Vue.js等技术,对数据进行处理、分析及可视化呈现,你们作为该小组的技术人员,请按照下面
任务完成本次工作。
任务A:
大数据平台搭建(容器环境)(15分)
环境说明:
服务端登录地址详见各任务服务端说明。
补充说明:
宿主机及各容器节点可通过Asbru工具或SSH客户端进
15
行SSH访问。
子任务一:
Hadoop完全分布式安装配置
本任务需要使用root用户完成相关配置,安装Hadoop需要配置
前置环境。
命令中要求使用绝对路径,具体要求如下:
1、从宿主机/opt目录下将文件hadoop-3.1.3.tar.gz、jdk-8u212-linux-x64.tar.gz复制到容器Master中的/opt/software路径中(若路径不存在,则需新建),将Master节点JDK安装包解压到/opt/module路径中(若路径不存在,则需新建),将JDK解压命令复制并粘贴至客户端桌面【Release\任务A提交结果.docx】中
对应的任务序号下;
2、修改容器中/etc/profile文件,设置JDK环境变量并使其生效,配置完毕后在Master节点分别执行“java-version”和“javac”命令,将命令行执行结果分别截图并粘贴至客户端桌面【Rel
ease\任务A提交结果.docx】中对应的任务序号下;
3、请完成host相关配置,将三个节点分别命名为master、slave1、slave2,并做免密登录,用scp命令并使用绝对路径从Master复制JDK解压后的安装文件到slave1、slave2节点(若路径不存在,则需新建),并配置slave1、slave2相关环境变量,将全部scp复制JDK的命令复制并粘贴至客户端桌面【Release\任务A提交
结果.doc
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 高职 GZ033 数据 应用 开发 规程 师生