数据分析复习与小结.docx
- 文档编号:3512892
- 上传时间:2022-11-23
- 格式:DOCX
- 页数:15
- 大小:188.47KB
数据分析复习与小结.docx
《数据分析复习与小结.docx》由会员分享,可在线阅读,更多相关《数据分析复习与小结.docx(15页珍藏版)》请在冰豆网上搜索。
数据分析复习与小结
本章总结提升
本章知识框架 构建框架 系统整理
类型之一 求一组数据的平均数
如果一组数据中各个数据出现的频数不同,或者各个数据的重要程度不同,应计算加权平均数,计算公式为x=
(w1,w2,…,wn分别是数据x1,x2,…,xn的权).
这里各数据的“权”较强地反映了数据的相对“重要程度”,通常是以下列情形给出的:
(1)以数据出现的次数(即频数)给出各数据的“权”;
(2)以比的形式给出各数据的“权”;
(3)以百分数的形式给出各数据的“权”.
例1 老张进行苹果树科学管理试验,把一片苹果林分成甲、乙两部分,甲块地用新技术管理,乙块地用老方法管理,管理成本相同.在甲、乙两块地上各随机选取20棵苹果树,根据每棵树产量把苹果树划分成A,B,C,D,E五个等级(甲、乙两块地的等级划分标准相同,每组数据包括左端点不包括右端点)画出统计图:
图20-T-1
(1)认真阅读统计图,补全直方图,并求a的值及相应扇形的圆心角度数;
(2)选择合适的统计量,比较甲、乙两块地的产量水平,并说明试验结果.
[解析]
(1)用样本容量减去其他各组的频数即为B等级的频数,a%=1-其他小组的百分比,B等级对应圆心角度数=a%×360°;
(2)算出乙块地各个等级的苹果树棵数,利用组中值确定每小组的产量,再用加权平均数计算两块地的平均产量,然后进行比较.
解:
(1)甲块地B组的频数为20-1-3-5-5=6,补全直方图如下:
图20-T-2
∵a%=100%-15%-10%-20%-45%=10%,
∴a=10.
相应扇形的圆心角为360°×10%=36°.
(2)乙块地上A,B,C,D,E五个等级的苹果树棵数分别为:
A等级20×15%=3(棵);B等级20×10%=2(棵);C等级20×45%=9(棵);D等级20×20%=4(棵);E等级20×10%=2(棵).
∵x甲=
=80.5(kg),
x乙=
=75(kg),
∴x甲>x乙.
∴由样本估计总体的思想,说明通过新技术管理甲块地苹果产量高于乙块地苹果产量.
[归纳总结]本题属于开放型题,在没有指明利用哪个统计量进行分析说明的情况下,如果一组数据中没有极端值,则首选用平均数进行比较,如果用平均数分辨不出好坏,再考虑用中位数、众数、方差比较;若一组数据中有极端值,则除了考虑用平均数外,还必须再考虑从中位数、众数、方差几个方面进行比较.
针对训练
1.某公司人事部欲从内部招聘管理人员一名,对甲、乙、丙三名候选人进行专业知识测试,成绩如下表所示,并依录用的程序,组织200名职工对三人进行民主评议投票推荐,三人得票率如图20-T-3所示.(没有弃权票,每位职工只能投1票,每得1票记1分)
测试成绩
测试项目
甲
乙
丙
专业知识
73
74
67
(1)请填出三人的民主评议得分:
甲得________分,乙得________分,丙得________分;
(2)根据招聘简章,人事部将专业知识、民主评议两项得分按6∶4的比例确定个人成绩,成绩较好者将被录用,那么________将被录用,他的成绩为________分.
图20-T-3
[答案]
(1)70 68 62
(2)甲 71.8
[解析]
(1)由扇形统计图可求三人的民主得分:
甲为35%×200=70(分),乙为34%×200=68(分),丙为31%×200=62(分).
(2)利用加权平均数计算公式计算三人成绩的加权平均数.
类型之二 平均数、中位数、众数的计算及其应用
平均数、中位数、众数都是一组数据集中趋势的代表,平均数应用最广泛,它反映了一组数据的平均水平,当数据波动不大时,它是一个较好的代表值.但当极端值相差很大时,它易受极端值影响,则不能代表一般水平,这时可以考虑用中位数作为一般水平的代表值.中位数是一个位置值,代表着中间水平.当一组数据中相同数据多次重复出现时,众数往往是人们关注的一个代表值.实际分析数据时,应视具体情境,按其考察的对象合理使用平均数、中位数或众数.
例2 如图20-T-4是某市交警在一个路口统计的某个时段来往车辆的车速情况(单位:
km/h).
(1)计算这些车的平均速度;
(2)大多数车以哪一个速度行驶?
(3)中间的车速是多少?
图20-T-4
[解析]先利用加权平均数的计算公式计算出平均数,大多数车的速度其实就是这组数据的众数,中间的车速就是这组数据的中位数.
解:
(1)x=
=42.6(km/h).
(2)这组数据的众数为42km/h,所以大多数车以42km/h的速度行驶.
(3)这组数据的中位数为42.5km/h,所以中间的车速是42.5km/h.
[归纳总结]解决这类问题首先要看懂题目中的图表信息,然后灵活运用所学习的概念解决问题.注意中位数一定是将一组数据从小到大(或从大到小)排列后中间的一位(数据个数为奇数)或中间两个数的平均数(数据的个数为偶数).众数是一组数据中出现次数最多的数,一组数据可以有一个众数,也可以有多个众数.
针对训练
2.在一次射击比赛中,19名参赛运动员射击(每人打30发)的环数如下表:
环数
24
25
26
27
28
29
30
人数
1
1
2
2
4
7
2
求出中位数、众数、平均数,并说明在这个问题中,中位数、众数、平均数各说明了什么.(结果精确到0.1环)
[解析]解答好本题的关键是要分清中位数、众数、平均数在反映一组数据时有各自不同的侧重点.
解:
表里的19个数据可看成是按从小到大的顺序排列的一组数据,其中位置在最中间的第10个数据是28环,即这组数据的中位数是28.0环.
在19个数据中,29环出现了7次,是出现次数最多的一个数据,即这组数据的众数是29.0环.
这组数据的平均数是
x=
(24×1+25×1+26×2+27×2+28×4+29×7+30×2)≈27.9(环).
参赛运动员射击环数的中位数是28.0环,说明28.0环以下和28.0环以上的数据大约各占一半;参赛运动员成绩的众数是29.0环,说明射击环数为29.0环的人数最多;参赛运动员射击环数的平均数为27.9环,说明所有参赛运动员的平均成绩是27.9环.
[点评]我们看到,中位数、众数与平均数从不同的角度描述了一组数据的集中趋势,其中又以平均数的应用最为广泛.
类型之三 应用数据的代表进行决策
思想方法:
平均数、中位数、众数都是描述一组数据集中趋势的量,但它们描述的角度和适用的范围不尽相同.在具体问题中,究竟用谁来描述一组数据的集中趋势,就要看数据的特点和人们所关心的问题,从而做出科学的选择和决策.
例3 三个生产日光灯管的厂家在广告中宣称,他们生产的日光灯管在正常情况下,灯管的使用寿命为12个月.工商部门为了检查他们宣传的真实性,从三个厂家中各抽取11个日光灯管进行检测,灯管的使用寿命(单位:
月)如下表:
甲厂
7
8
9
9
9
11
13
14
16
17
19
乙厂
7
7
9
9
10
10
12
12
12
13
14
丙厂
7
7
8
8
8
12
13
14
15
16
17
试问:
(1)这三个厂家的广告分别利用了统计量中的哪一个特征量(平均数、中位数、众数)进行宣传?
(2)如果三种日光灯管的售价一样,作为顾客,你会选购哪个厂家的产品?
请说明理由.
[解析]
(1)分别计算出甲厂、乙厂和丙厂灯管使用寿命的平均数、中位数和众数作答;
(2)平均数、中位数和众数都可以作为一组数据的代表,从不同的角度提供信息,所以本题的答案不唯一,只要合理即可.
一般来说,厂家看哪一个特征数对其有利便会利用哪个特征数进行宣传;而作为消费者,选购哪个厂家的产品,主要看哪个厂家的产品的使用寿命长.
解:
(1)甲、乙、丙三个厂家产品使用寿命的平均数分别为
x甲=
×(7+8+9+9+9+11+13+14+16+17+19)=12(月);
x乙=
×(7+7+9+9+10+10+12+12+12+13+14)≈10.5(月);
x丙=
×(7+7+8+8+8+12+13+14+15+16+17)≈11.4(月).
甲、乙、丙三个厂家产品使用寿命的中位数分别为11月,10月,12月.
甲、乙、丙三个厂家产品使用寿命的众数分别为9月,12月,8月.
所以甲厂家的广告利用了平均数进行宣传,乙厂家的广告利用了众数进行宣传,丙厂家的广告利用了中位数进行宣传.
(2)答案不唯一.如:
选用甲厂家的产品,因为它的平均数较真实地反映了日光灯管的使用寿命;选用丙厂家的产品,因为它有一半的日光灯管使用寿命超过12个月.
[归纳总结]平均数、中位数和众数都反映了一组数据的集中程度,其中,平均数在实际生活中应用比较广泛,在具体应用时要根据具体情况选择合适的数据代表作出合理的决策.
针对训练
3.某中学对全校学生60秒跳绳的次数进行了统计,全校平均次数是100,某班体育委员统计了全班50名学生60秒跳绳的成绩,列出的频数分布直方图如图20-T-5所示(每个分组包括左端点,不包括右端点).求:
(1)该班60秒跳绳的平均次数至少是多少?
是否超过全校平均次数?
(2)该班一个学生说:
“我的跳绳成绩在我班是中位数”,请你给出该生跳绳成绩所在的范围.
图20-T-5
解:
(1)该班60秒跳绳的平均次数至少是(60×4+80×13+100×19+120×7+140×5+160×2)÷50=100.8.
因为100.8>100,所以一定超过全校平均次数.
(2)这个学生的跳绳成绩在该班是中位数,由4+13+19=36,可知中位数一定在100~120范围内.
4.某年青岛市春季房交会期间,某房地产公司对参加本次房交会的消费者进行了随机问卷调查,共发放了1200份调查问卷,实际收回了1000份.该房地产公司根据问卷情况,作了以下两方面的统计:
(1)根据被调查消费者年收入情况制成的统计表:
年收入(元)
各段被调查消费者人数占被
调查消费者总人数的百分比
2万以下
50%
2万~4万(不含4万)
26%
4万~6万(不含6万)
14%
6万~8万(不含8万)
7%
8万~10万
3%
(2)如图20-T-6是根据被调查消费者打算购买不同住房面积的人数情况制成的扇形统计图:
①80m2以下;
②80m2~100m2(不含100m2);
③100m2~120m2(不含120m2);
④120m2~140m2(不含140m2);
⑤140m2以上.
根据上述信息,解决下列问题:
(1)被调查的消费者平均年收入约为________万元;
(2)打算购买80m2~100m2的消费者人数为________;
(3)如果你是该房地产公司的开发商,请你从建房面积等方面谈谈你今后的工作打算(不超过30字).
图20-T-6
[解析]表中给出的数据是具有连续性的分组数据,可以选取各组的组中值代表该组实际值,由此求出所有数据的平均数.由扇形图求出购买80m2~100m2的人数,并由上述两个数据估计总体,提出建议.
(1)根据表中数据,可以得出各小组的组中值,由题意得总人数为1000,于是x=
=2.74(万元).
(2)由题意得样本容量为1000,由扇形图知打算购买80m2~100m2的人数占总人数的百分比为1-(16%+20%+24%+4%)=36%.
∴打算购买80m2~100m2的消费者人数为36%×1000=360(人).
解:
(1)2.74
(2)360
(3)由
(2)可估计打算购买80m2~100m2的人数最多,应适当增加这类住房的开发建设.
类型之四 方差的计算及应用
方差是描述一组数据波动大小的量,是衡量一组数据偏离其平均数的大小(即波动大小)的特征数.在分析数据时,除了关心数据的“平均水平”外,还要关注数据的离散程度,即相对于“平均水平”的离散程度.我们常用方差反映数据的离散程度,方差较小的数据,波动性较小,说明稳定性强;方差较大的数据,波动性较大,说明稳定性差.在生活中经常用方差的大小评估测试成绩、产品质量等的稳定性,以便决断“方案”“选拔”“决策”等问题.
例4 已知样本数据1,2,4,3,5,下列说法不正确的是( )
A.平均数是3B.中位数是4
C.这组数据无众数D.方差是2
[解析]B 由平均数计算公式可得x=
×(1+2+4+3+5)=3,所以A正确.把各个数据按从小到大的顺序排列,最中间的数据是3,由中位数的定义知这组数据的中位数是3,所以B不正确.这组数据没有出现次数最多的数,所以无众数,所以C正确.由方差计算公式,得s2=
×[(1-3)2+(2-3)2+(4-3)2+(3-3)2+(5-3)2]=2,所以D正确.故选B.
[归纳总结]平均数、中位数、众数与方差都是描述一组数据的特征数,准确理解定义,熟练掌握计算方法,是正确计算它们的关键.
针对训练
5.林波的妈妈开了一个早餐店,主要经营“油条”“麻团”“包子”等早点,可妈妈经营不善,经常有某种早点滞销或脱销,造成了浪费或亏损.懂事的林波结合所学的统计知识为妈妈统计了1号至10号的销售情况,并绘制了下表(单位:
个):
日期
分类
1
2
3
4
5
6
7
8
9
10
油条
20
10
5
18
28
29
50
43
15
20
麻团
70
40
80
75
84
82
79
86
100
96
包子
40
46
60
50
45
58
34
49
62
72
(1)计算各种早点的日平均销量,并说明哪种早点销量更大些;
(2)计算各种早点销量的方差(结果保留两位小数),并比较哪种早点销量稳定;
(3)假如你是林波,你会给妈妈哪些建议?
解:
(1)油条的平均数是23.8个,麻团的平均数是79.2个,包子的平均数是51.6个.故麻团的销量最大.
(2)油条的方差是178.36,麻团的方差是243.16,包子的方差是116.44.故包子的销量相对稳定些.
(3)每天做的油条、麻团、包子的个数以各自的日平均数为参照,包子可适当放宽一些.
类型之五四 应用数据的波动进行决策
在解决实际问题时,要同时分析数据的一般水平与波动性,两者之间有着密切的联系,需要通过计算,然后对数据进行全面分析,并结合实际作出合理的判断和决策.
例5 为了让广大青少年学生走向操场、走进自然、走进阳光下,积极参加体育锻炼,我国启动了“全国亿万学生阳光体育运动”活动.
短跑运动,可以锻炼人的灵活性,增强人的爆发力,因此小明和小亮在课外活动中,报名参加了短跑训练小组,在近几次百米训练中,所测成绩如图20-T-7,请根据图中所示解答以下问题.
(1)请根据图中信息,补全下面的表格:
测试次数
第1次
第2次
第3次
第4次
第5次
小明
13.3
13.4
13.3
13.3
小亮
13.2
13.1
13.5
13.3
(2)从图中看,小明、小亮哪次的成绩最好?
(3)分别计算他们的平均数、方差,若你是他们的教练,将小明与小亮的成绩比较后,你将分别给予他们怎样的建议?
图20-T-7
[解析]
(1)从折线图中读取要填写的数据;
(2)由图中点的高低,可说明成绩的好坏,时间越短,成绩越好;(3)通过计算,结合特征数进行分析.
解:
(1)从左到右依次填:
13.4,13.2.
(2)从图中看出小明的第4次成绩最好,小亮的第3次成绩最好.
(3)小明:
x小明=
×(13.3+13.4+13.3+13.2+13.3)=13.3(秒),
方差:
s小明2=
×[(13.3-13.3)2×3+(13.4-13.3)2+(13.2-13.3)2]=0.004;
小亮:
x小亮=
×(13.2+13.4+13.1+13.5+13.3)=13.3(秒),
方差:
s小亮2=
×[(13.2-13.3)2+(13.4-13.3)2+(13.1-13.3)2+(13.5-13.3)2+(13.3-13.3)2]=0.02.
从平均数看,两人的平均水平相等;由方差看,小明的成绩较稳定,小亮的成绩波动较大.建议小明加强锻炼,提高爆发力,提高短跑成绩;建议小亮总结经验,找出成绩忽高忽低的原因,在稳定中求提高.
针对训练
6.某初中数学老师要从甲、乙两位学生中选一名参加数学竞赛,甲、乙两人前5学期的数学成绩(单位:
分)如下表:
第一学期
第二学期
第三学期
第四学期
第五学期
甲
75
80
85
90
95
乙
95
87
88
80
75
(1)分别求出甲、乙两人前5学期的数学平均成绩;
(2)分别画出甲、乙两人前5学期的数学成绩折线图;
(3)如果你是老师,你认为该选哪位学生参加数学竞赛?
请简要说明理由.
解:
(1)甲的平均成绩:
(75+80+85+90+95)÷5=85(分),
乙的平均成绩:
(75+80+87+88+95)÷5=85(分).
(2)如图20-T-8:
图20-T-8
(3)派甲去,因为甲的成绩呈上升趋势,而乙的成绩呈下降趋势.
章内专题阅读 阅读专题 思维拓展
怎样利用特征数做决策
统计的目的在于应用.在现实生活中,有很多地方用到统计数据.
一、怎样付费
例1 社会的信息化程度越来越高,计算机网络已进入普通百姓家庭.某市电信局对计算机拨号上网用户提供三种付费方式供用户选择(每个用户只能选择一种付费方式):
甲种方式是按实际用时付费,每小时付信息费4元,另加付电话费每小时1元2角;乙种方式是包月制,每月付信息费100元,同时加付电话费每小时1元2角;丙种方式也是包月制,每月付信息费150元,但不必再另付电话费.某用户为选择合适的付费方式,连续记录了7天中每天上网所花的时间(单位:
分):
第
一天
第
二天
第
三天
第
四天
第
五天
第
六天
第
七天
上网时间
(分)
62
40
35
74
27
60
80
根据上述情况,该用户选择哪种付费方式比较合适?
请你帮助选择,并说明理由.(每月以30天计算)
解:
该用户一个月总上网时间约为
×30÷60=27(时),选择甲种付费方式每月应付费5.2×27=140.4(元);选择乙种付费方式每月应付费100+1.2×27=132.4(元);选择丙种付费方式每月应付费150元.所以该用户选择乙种付费方式比较恰当.
[点评]该题要先计算该用户连续7天平均每天的上网时间,然后计算一个月上网时间,再计算出每一种付费方式下的付费数额,最后比较选择付费方式.
二、谁将被录用
例2 某单位欲从内部招聘管理人员一名,对甲、乙、丙三名候选人进行了笔试和面试两项测试,三人的测试成绩如下表所示:
甲
乙
丙
笔试/分
75
80
90
面试/分
93
70
68
根据录用程序,组织200名职工对三人利用投票推荐的方式进行民主评议,三人得票率(没有弃权票,每位职工只能推荐1人)如扇形统计图20-T-9所示,每得一票记作1分.
图20-T-9
(1)请计算出三人的民主评议得分;
(2)如果根据三项测试的平均成绩确定录用人选,那么谁将被录用?
(3)根据实际需要,单位将笔试、面试、民主评议三项测试得分按4∶3∶3的比例确定个人成绩,那么谁将被录用?
解:
(1)甲的民主评议得分为200×25%=50(分),
乙的民主评议得分为200×40%=80(分),
丙的民主评议得分为200×35%=70(分).
(2)甲的平均成绩为
=
(分),
乙的平均成绩为
=
(分),
丙的平均成绩为
=
(分).
由于
>
>
,所以候选人乙将被录用.
(3)如果将笔试、面试、民主评议三项测试得分按4∶3∶3的比例确定个人成绩,那么甲的个人成绩为
=72.9(分),
乙的个人成绩为
=77(分),
丙的个人成绩为
=77.4(分).
故丙将被录用.
三、怎样设计方案
例3 在上学期的几次测试中,小张和小王的几次数学成绩如下表(单位:
分):
平时成绩
期中成绩
期末成绩
小张
82
85
91
小王
84
89
86
两人都说自己的数学成绩更好.请你想一想:
(1)小张可能是根据什么来判断的?
小王可能是根据什么来判断的?
(2)你能根据小张的想法设计一种方案使小张的成绩比小王的高吗?
写出你的方案.
[解析]
(1)同一个成绩,但结论不同,主要是看问题的角度不一样.就本例而言,主要是算术平均数与加权平均数的选用问题.小王成绩的算术平均数高些,因此小王可能是根据算术平均数来判断的,小张可能是根据加权平均数来判断的.
(2)按照加权平均数来考虑.要使小张的综合成绩比小王的高,只要加大小张的优势项目的比重即可.当然,考虑实际情况期末成绩总要重要一些,这是设计方案时要注意的.
解:
(1)小张可能是根据加权平均数来判断的,小王可能是根据算术平均数来判断的.
(2)参考方案:
平时成绩、期中成绩、期末成绩所占的百分比分别为30%,30%,40%,这样小张的综合成绩就是86.5分,小王的综合成绩就是86.3分.
[点评]本题可有多种设计方案,是开放性题目.这类试题对于培养学生的创新能力非常有帮助
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 复习 小结