大数据技术与应用赛项赛题任务书2Word格式文档下载.docx
- 文档编号:19002948
- 上传时间:2023-01-02
- 格式:DOCX
- 页数:22
- 大小:29.90KB
大数据技术与应用赛项赛题任务书2Word格式文档下载.docx
《大数据技术与应用赛项赛题任务书2Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《大数据技术与应用赛项赛题任务书2Word格式文档下载.docx(22页珍藏版)》请在冰豆网上搜索。
root
passwd
2
slave1
从节点
3
slave2
补充说明:
主节点MySQL数据库用户名/密码:
root/Password123$
相关软件安装包在/chinaskills目录下
所有模块中应用命令必须采用绝对路径
任务一:
Hadoop全分布部署管理
本环节需要使用root用户完成相关配置,安装Hadoop需要配置前置环境。
命令中要求使用绝对路径,具体部署要求如下:
1、将/chinaskills下的JDK包解压到/usr/local/src路径,将完整命令复制粘贴到对应报告中;
2、
3、修改/root/.bash_profile文件,设置JDK环境变量,并使环境变量只对当前root用户生效将环境变量配置内容复制粘贴至对应报告中;
4、
5、从master复制上面步骤配置的JDK环境变量文件到slave1、slave2节点,命令和结果复制粘贴在对应报告中;
6、
7、配置SSH密钥登录,实现从master登录到slave1,将登录命令和结果复制粘贴在对应报告中;
8、
9、将配置文件hadoop-env.sh变更内容复制粘贴在对应报告中;
10、
11、将配置文件core-site.xml变更内容复制粘贴在对应报告中;
12、
13、初始化Hadoop环境namenode,将命令及结果复制粘贴在对应报告中;
14、
15、查看master及slave1节点jps进程,将其命令及结果复制粘贴至对应报告中。
16、
任务二:
Flume部署管理
1、设置Flume环境变量,并使环境变量只对当前root用户生效,将变量内容复制并粘贴到对应报告中。
3、修改并配置flume-env.sh文件,将修改内容复制并粘贴到对应报告中。
5、查看Flume启动的conf-file文件内容,将内容复制并粘贴到对应报告中;
7、启动Flume传输Hadoop日志,将Flume启动命令以及查看HDFS上生成的Hadoop日志文件结果复制并粘贴到对应报告中(若文件数量大于10则只截取10条)。
并查看HDFS中/tmp/flume目录下生成了文件,将内容复制并粘贴到对应报告中。
任务三:
Zookeeper部署管理
1、解压Zookeeper安装包到“/usr/local/src”路径,并修改解压后文件夹名为zookeeper,将修改命令及结果复制粘贴至对应报告中;
3、设置ZOOKEEPER_HOME环境变量,并使环境变量只对当前用户生效,命令及环境变量内容复制粘贴至对应报告中;
5、配置“zoo.cfg”配置文件,将文件变更内容复制粘贴至对应报告中;
7、修改myid配置文件,将文件变更内容复制粘贴至对应报告中;
9、启动每个虚拟机上的Zookeeper节点,启动完成之后查看每个节点的zkServer服务状态,命令及结果复制粘贴至对应报告中。
模块B:
数据采集与处理(20分)
项目背景说明
1、查看餐饮外送统计平台网站源码结构。
1)打开网站,在网页中右键点击检查,或者F12快捷键,查看源码页面;
2)
3)检查网站:
浏览网站源码查看所需内容。
4)
3、从餐饮外送统计平台中采集需要数据,按照要求使用Python语言编写代码工程,获取指定数据项,并对结果数据集进行必要的数据处理。
请将符合任务要求的结果复制粘贴至对应报告中。
具体步骤如下:
1)创建工程工程项目:
C:
\food_delivery
3)构建采集请求
5)按要求定义相关字段
6)
7)获取有效数据
8)
9)将获取到的数据保存到指定位置
10)
11)对数据集进行基础的数据处理
12)
至此已从餐饮外送统计平台中获取所需数据,并完成了必要的基础的数据处理。
5、自行创建Scrapy工程项目food_delivery,路径为C:
\food_delivery按照任务要求从餐饮外送统计平台中获取数据。
提取“商户数据”页面相关字段(包括平台餐厅ID、餐厅名称、城市等全部有效数据项),保存至文件restaurant_data.json;
再提取“配送平台灰测维度数据”页面相关数据(包括餐厅名称、城市、营业时长等全部字段)保存至文件grey_test.json。
7、每条数据记录请以单独一行保存,信息存储格式为key:
value。
文件保存路径为:
\output。
示例:
{"
rest_id"
:
"
***"
"
rest_name"
……},
……
9、任务中要求将“以下内容及答案完整复制粘贴至对应报告中。
”,粘贴到对应报告中的内容示例如下:
配送范围审核相关数据页数为:
100
灰度数据对比相关数据页数为:
爬取配送范围审核数据
自行创建Scrapy工程编写爬虫代码,爬取“配送范围审核-人员预算”相关数据,通过爬虫代码分页爬取,以合理的程序逻辑判断相关数据包含的页数并将答案复制粘贴至对应报告中。
示例格式:
爬取配送平台灰测数据
自行创建Scrapy工程编写爬虫代码,爬取“配送平台灰测维度数据”页面相关数据,通过爬虫代码分页爬取,以合理的程序逻辑判断相关数据包含的页数并将答案复制粘贴至对应报告中。
灰测维度相关数据页数为:
爬取指定文件
运行代码,爬取网页数据至指定文件。
查看文件并填写采集到的记录条数,并将答案复制粘贴至对应报告中。
range_audited.json行数为:
grey_test.json行数为:
任务四:
属性判断
审查爬取的range_audited数据,判断属性“申请时间”、“创建时间”与“created_at”、“updated_at”是否为重复属性。
如果为重复属性,则删除“申请时间”、“创建时间”;
如果不是重复属性,请输出数据集中数值不相同的记录条数。
并将答案复制粘贴至对应报告中。
(1)如果仅考虑年、月、日数据,忽略时刻信息,“申请时间”、“创建时间”与“created_at”、“updated_at”是否为重复属性?
(请填写“是”/“否”):
(2)如果不是重复属性,不同的记录条数共有条数为:
(如果为重复属性,请填写“/”)
任务五:
数据探索
针对爬取的grey_test数据,利用DataFrame.describe方法探索数据基本情况,将输出结果复制粘贴至对应报告中。
任务六:
缺失值统计
根据任务4的输出结果,grey_test数据中那一个属性缺失值最多?
请将正确答案复制粘贴至对应报告中。
缺失值最多的属性为:
模块C:
数据清洗与挖掘分析(25分)
餐饮外卖平台的核心价值体现在配送,而配送的价值则依赖于商家与客户的双向选择。
外卖平台通常会通过内容激活消费者和商家两个群体的活跃度。
消费者会参考平台展示的内容选择商家,商家也会以消费者评价与平台统计数据为依据调整策略,由此再吸引更多的用户下单、评论、形成正向循环。
保证配送的时效与品质是从优化用户体验的角度,吸引更多的用户参与,进而带动商家不断入驻。
由此,商家、消费者、骑手在平台上形成越来越多的真实可靠的数据,帮助消费者更好的做出消费决策,同时促进商家提高服务质量。
而平台通过数据,不断调整优化服务,从而不断提升这种多边网络效应。
提升网络效应的直接结果就是用户和商家规模大幅提升,进而形成规模效应——降低获客成本、提高效益,并且不断提升自己的行业壁垒。
为探索各大外卖平台的市场策略与经营模式,现从及平台获取到了原始数据集,为保障用户隐私和行业敏感信息,已经对数据脱敏。
数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。
在涉及客户安全数据或一些商业性敏感数据的情况下,对真实数据进行改造并提供测试使用,如身份证号、手机号等个人敏感信息都需要进行数据脱敏。
本题已将脱敏后的数据存放于“C:
\数据源”。
数据清洗
任务背景:
数据源为众多网站及平台的数据汇总,且为多次采集的结果,在整合多来源数据时可能遇到数据重复,或数据拼接导致的属性列缺失或冗余等情况。
请根据任务具体参数要求,针对原始数据集进行清洗,并写入指定的数据库或数据文件,复制并保存结果。
任务描述:
数据源文件存放于路径“C:
\数据源”,请按照如下要求编写Python程序对数据进行清洗,并将结果保存至对应报告中。
1)分析“C:
\数据源”路径中数据文件。
3)针对属性列“商家id”排查并删除异常数据条目。
5)针对属性列缺失或冗余的样本进行删除。
7)运行python程序,保存清洗后的结果数据集,并将答案复制粘贴至对应报告中。
具体任务要求:
1、编写python程序读取相关数据文件,包含“city_name,location,latitude,longtitude,rest_type,platform_A_restid,A_rst_name,A_day_30_cnt,platform_B_restid,B_rst_name,B_day_30_cnt”字段,在PyCharm控制台打印输出数据集样本条数。
将打印语句复制粘贴至对应报告中。
===数据集初始样本条数为***条===
2、针对属性列“platform_A_restid”或“platform_B_restid”重复的样本,请以多条样本记录的“A_day_30_cnt”或“B_day_30_cnt”属性均值作为该属性的值,并删除多余样本。
请在PyCharm控制台打印输出删除的样本条数。
===因重复样本记录,删除样本条数为***条===
3、审查样本的属性数量,当属性列缺失或冗余时,剔除该样本记录。
请在PyCharm控制台打印输出剔除的样本条数。
===因属性冗余或缺失,剔除的样本条数为***条===
4、数据记录以[latitude,longtitude]降序排列,保存至路径“C:
\数据源“中,并命名为diliveryoutput1.csv。
通过Python程序查看文件前10行。
将程序输出复制粘贴至对应报告中。
数据挖掘分析
子任务1
聚类分析又称群分析,它是研究分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。
聚类分析是由若干模式组成的。
通常,模式是一个度量的向量,或者是多维空间中的一个点。
聚类分析以相似性为基础,同一个聚类簇中的模式之间具有相似性,不同聚类簇之间具有相异性。
在商业上,聚类可以帮助平台市场分析人员对一定地理范围内的商家进行合理的管辖区域划分,或在经营数据中区分出不同的商家群体,并提取每一类商家的经营模式。
它作为数据挖掘中的一个模块,可以作为一个单独的工具以发现数据中的深层的信息,并且提取出每一类样本的特点,或者把注意力放在某一个特定的类上以作进一步的分析;
同时,聚类分析也可以作为数据挖掘算法中其他分析算法的一个预处理步骤。
本题数据请采用任务数据清洗的输出文件diliveryoutput1.csv。
聚类分析成功地应用于心理、经济、社会、管理、医学、地质、生态、地震、气象、考古、企业决策等方面,同时也是划分市场的有效工具,可用于寻找新的潜在市场、选择实验的市场,并且可作为多元分析的预处理。
由于加入外卖平台的商家数量急剧上升,现ChinaSkill公司希望对北京地区各个商圈商家再次进行汇总划分,请根据各商家的地理位置(经纬度)进行聚类统计,并将结果保存至对应报告中。
请以数据清洗任务结果数据集diliveryoutput1.csv作为输入数据源,按照如下要求Python程序实现对数据的分析挖掘,并将结果保存。
1)解析diliveryoutput1.csv文件。
3)提取商家相关属性数据。
5)针对商家地理位置进行聚类划分。
7)查看聚类结果。
1、读取diliveryoutput1.csv,抽取北京地区商家数据记录,查看数据记录条数。
请在PyCharm控制台打印输出样本条数,并将打印语句复制粘贴至对应报告中。
===北京地区样本条数为***条===
2、根据北京地区商家的经纬度属性,对商家进行k-means聚类,聚类数设为5,迭代次数为2000次,请在PyCharm控制台以打印语句输出聚类中心、每个类的商家数,以及该类所包含的商圈,并将打印语句复制粘贴至对应报告中。
=cluster0:
聚类中心为[**,**],商家数为***个,包含商圈:
【*,*】=
子任务2
灰度测试起源于软件测试策略,指在同一个时间段内,存在两个不同的应用版本,一个版本叫做黑色版本,而另一个版本叫做白色版本。
通过观测两个同时存在的版本的表现来调整黑色版本和白色版本的比例,如果一切顺利,渐渐地把所有用户的应用从黑色版本过渡到白色版本。
而这种通过共存黑白版本的手段进行测试的过程就叫做灰度测试或灰度发布。
将灰度测试应用于商业中,可以帮助市场管理团队快速试验并发现问题,在新的市场策略大规模推向全部区域用户之前,及时修正问题,在极大程度上减少了不必要的风险。
因此灰度测试对商业决策是非常必要的。
而小规模的灰度测试,不但满足了一部分人抢先体验的愿望,同时也可以发现新决策中不容易发现的各种问题,并收集到真正的用户体验。
现ChinaSkill公司为估算市场容量、探求外卖平台运力负荷拐点,进行了一轮灰度测试,请根据灰度测试前后的数据,完成任务要求的相关分析统计,并将结果保存至对应报告中。
数据源文件存放于路径C:
\数据源,请按照如下要求编写Python程序对数据进行分析,并将结果保存至对应报告中。
\数据源“路径中数据文件。
3)针对指定属性列灰度测试前后的数据进行对比分析。
5)运行python程序,输出分析结果,并将答案复制粘贴至对应报告中。
1、编写python程序读取相关数据文件中:
网格id,推单数-9,有效完成率-9,超时率-9,推单数-8,有效完成率-8,超时率-8字段,字段分别表示灰度测试对象的网格id,以及灰度测试前(某月8日)、后(某月9日)的平台外卖销售表现。
请在PyCharm控制台以打印语句输出数据记录条数,并将打印语句复制粘贴至对应报告中。
===文件数据记录条数为***条===
2、请统计灰度测试前后,平台推单数增加10%以上的网格,并以增加幅度降序排列。
请在PyCharm控制台以打印语句输出增加幅度最高的5个网格相关信息,并将打印语句复制粘贴至对应报告中。
===1.网格id:
***,推单数增幅***%===
===2.网格id:
3、请统计灰度测试前后,有效完成率没有降低、或降低不超过3%,同时灰度测试后有效完成率保持在95%以上的网格信息。
请在PyCharm控制台以打印语句输出符合条件的网格数,及该结果在总网格数中的占比,并将打印语句复制粘贴至对应报告中。
===符合条件的网格数为**个,在总网格数中占比***%===
模块D:
数据可视化(20分)
MySQL数据库中的相关数据集包含了城市、地点、商家id、网格id、餐品种类、标品属性等多项基础信息字段。
请使用Flask框架,结合Echarts完成下列任务。
数据库账号:
takeout密码:
takeout
自行创建代码工程路径为C:
\food_dilivery
每个可视化图中需要添加图片作为背景水印
双折线图呈现平台销量
市场份额亦称“市场占有率”。
指某企业的销售量(或销售额)在市场同类品类中所占比重。
反映企业在市场上的地位。
通常市场份额越高,竞争力越强。
市场占有率一般有3种基本测算方法:
(1)总体市场份额,指某企业销售量在整个行业中所占比重。
(2)目标市场份额,指某企业销售量在其目标市场,即其所服务的市场中所占比重。
(3)相对市场份额,指某企业销售量与市场上最大竞争者销售量之比,若高于1,表明该企业其为这一市场的领导者。
请按任务指定要求,输出不同平台商家销售分析相关图例。
请根据相关表格数据,分别统计A平台与B平台30天销量最高的10个商家的销量,并以共享y轴的双折线图呈现。
1、根据相关表格city_name,location,latitude,longtitude,rest_type,platform_A_restid,A_rst_name,A_day_30_cnt,platform_B_restid,B_rst_name,B_day_30_cnt等字段,分别统计A平台与B平台30天销量最高的10个商家及销量,在PyCharm控制台按照“30天销量”降序打印输出商家id,商家所属平台,及30天销量。
==1:
“****”,Platform-A,销量为***===
==2:
==10:
“****”,Platform-A,销量为***===
“****”,Platform-B,销量为***===
“****”,Platform-B,商家数为***个===
2、使用Flask框架,结合Echarts,完成可视化输出。
要求图标题为“各平台30天销量最高10大商家”,横坐标1(下方)为平台A商家id,横坐标2(下方)为平台B商家id(倾斜显示、互不遮挡),纵坐标为商家销量,以销量降序排列,红色折线标识Platform-A商家,蓝色折线标识Platform-B商家。
将可视化结果截图并保存(截图需包含浏览器地址栏)。
气泡图呈现各商圈的商家数量
商圈,指某商场以其所在地为原点,沿着一定的方向和距离扩展,吸引顾客的辐射范围。
简单地说,就是来店顾客所居住或工作的区域范围。
无论餐厅规模大小,其销售覆盖区域总是有一定的地理范围。
这个地理范围就是以某商场为中心,向四周辐射到可能来店消费的顾客居住地或工作地。
请按任务指定要求,输出相关图例。
请根据数据库相关数据集中city_name,location,latitude,longtitude,rest_type,platform_A_restid,A_rst_name,A_day_30_cnt,platform_B_restid,B_rst_name,B_day_30_cnt等字段,明晰地理位置与商铺聚集程度之间的关系。
请以经度为横坐标,纬度为纵坐标,绘制商家数量气泡图,并以该地理位置的商家数量/10作为气泡半径。
1、提取表格相关字段,在控制台按照“商家数量”降序排列,打印输出商圈名称及包含的商家数量。
商圈****=商家数为***个===
2、使用Flask框架,结合Echarts,完成气泡图输出。
要求标题为“商家聚集地理位置展示”,横坐标为经度,纵坐标为维度,以该地理位置的商家数量/10作为气泡半径,绘制气泡图。
柱状图呈现A平台商家分布
外卖平台为更多消费者和商户提供了数字化的生活方式和经营模式,推动供需两端稳步增长。
同时数字化趋势也将带来更多机会,外卖行业是具备成长性和长远回报的新业务领域,需要坚持长期积极投入。
城市平台签约商户数量直观地体现了该平台在一定区域内的投入力度和发展现状。
请按任务指定要求,输出不同城市商家统计相关图例。
请根据相关表格数据,统计A平台在各城市的商家数量。
1、根据相关表格city_name,location,latitude,longtitude,rest_type,platform_A_restid,A_rst_name,A_day_30_cnt,platform_B_restid,B_rst_name,B_day_30_cnt等字段,统计每个城市所包含的A平台商家数量,在控制台按商家数量降序,打印输出前10个城市名称及对应的商家数量。
==1.城市:
***,商家数量为***===
==2.城市:
2、使用Flask框架,结合Echarts,完成柱状图输出。
要求标题为“平台A商家数量排名前十座”,横坐标为城市名称,纵坐标为该城市平台A商家数量,以商家数量降序排列。
柱状堆叠图呈现审核通过比例
外卖的配送范围一般由外卖平台的业务人员为商家设定,商家也可以根据实际情况向平台申请修改配送范围。
通常配送范围并不是毫无棱角的圆形,因为这种划分并没有因地制宜,是不合理的。
最大配送距离指的是配送范围中距离商家最远的直线距离,最小配送距离则是配送范围中距离商家最近的直线距离。
在申请配送范围修改时,审核员将考虑实际道路限制、综合运力成本、顾客等待时长等因素,对配送范围变更的申请进行考量,最终做出通过/拒绝/驳回的结果
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 技术 应用 赛项赛题 任务书