应用统计学课后习题答案.docx
- 文档编号:28329930
- 上传时间:2023-07-10
- 格式:DOCX
- 页数:21
- 大小:42.09KB
应用统计学课后习题答案.docx
《应用统计学课后习题答案.docx》由会员分享,可在线阅读,更多相关《应用统计学课后习题答案.docx(21页珍藏版)》请在冰豆网上搜索。
应用统计学课后习题答案
统计学第三版贾俊平等主编课后习题答案3.1为评价家电行业售后服务的质量,随机抽取了由100个家庭构成的一个样本。
服务质量的等级分别表示为:
A.好;B.较好;C一般;D.较差;E.差。
调查结果如下:
BDABCDBBACEADABAEADBCCBCCCCCBCCBCDEBCECEACCEDCAECDDDAABDDAABCEEBCECBECBCDDCCBDDCAECDBEADCBEEBCCBECBC要求:
(1)指出上面的数据属于什么类型。
顺序数据
(2)用Excel制作一张频数分布表。
用数据分析——直方图制作:
接收E频率161D17C32B21A14(3)绘制一张条形图,反映评价等级的分布。
用数据分析——直方图制作:
(4)绘制评价等级的帕累托图。
逆序排序后,制作累计频数分布表:
频率累计频率接收频数(%)(%)C323232B212153D171770E1616862A35302520151050CDB1414100120100806040200AE3.2某行业管理局所属40个企业2002年的产品销售收入数据如下:
1521051179712411910888129114105123116115110115100871071191031031371389211812011295142136146127135117113104125108126要求:
(1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率。
1、确定组数:
K1lg40lg(n)1.60206116.32,取k=6lg
(2)lg20.3010332、确定组距:
组距=(最大值-最小值)÷组数=(152-87)÷6=10.83,取103、分组频数表4
(2)按规定,销售收入在125万元以上为先进企业,115~125万元为良好企业,105~115万元为一般企业,105万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业进行分组。
3.3某百货公司连续40天的商品销售额如下:
单位:
万元41463542253628362945463747373437383730493436373930454442384326324333383640444435要求:
根据上面的数据进行适当的分组,编制频数分布表,并绘制直方图。
1、确定组数:
K1lg40lg(n)1.60206116.32,取k=6lg
(2)lg20.301032、确定组距:
5组距=(最大值-最小值)÷组数=(49-25)÷6=4,取53、分组频数表3.4利用下面的数据构建茎叶图和箱线图。
5729293631623351821214751264643233950411928182952422846332820dataStem-and-LeafPlotFrequencyStem&Leaf3.001.88975.002.011337.002.68889992.003.133.003.5693.004.1233.004.6673.005.0121.005.7Stemwidth:
10Eachleaf:
1case(s)3.6一种袋装食品用生产线自动装填,每袋重量大约为50g,但由于某些原因,每袋重量不会恰好是50g。
下面是随机抽取的100袋食品,测得的重量数据如下:
单位:
g57464954555849615149516052545155605647475351485350524045575352514648475347534447505253474548545248464952595350435346574949445752424943474648515945454652554749505447484457475358524855535749565657534148要求:
(1)构建这些数据的频数分布表。
(2)绘制频数分布的直方图。
8(3)说明数据分布的特征。
解:
(1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率。
1、确定组数:
K1lg100lg(n)2116.64,取k=6或7lg
(2)lg20.301032、确定组距:
组距=(最大值-最小值)÷组数=(61-40)÷6=3.5,取3或者4、5组距=(最大值-最小值)÷组数=(61-40)÷7=3,3、分组频数表组距3,上限为小于9直方图:
组距4,上限为小于等于10直方图:
11组距5,上限为小于等于12直方图:
分布特征:
左偏钟型。
3.8下面是北方某城市1——2月份各天气温的记录数据:
-32-4-7-11-1789-613146-8-14-3-18-8-6-222-15-12-15-13-4-9-16-11-9-4-6-19-12-6-16-1-15-190-10-22-25-175-25-2455-4-24-18-4-6-9-19-17-9-5要求:
(1)指出上面的数据属于什么类型。
数值型数据
(2)对上面的数据进行适当的分组。
1、确定组数:
lg60lg(n)1.778151K1116.90989,取k=7lg
(2)lg20.301032、确定组距:
组距=(最大值-最小值)÷组数=(14-(-25))÷7=5.57,取53、分组频数表14(3)绘制直方图,说明该城市气温分布的特点。
3.11对于下面的数据绘制散点图。
解:
15
(1)根据上面的数据,画出两个班考试成绩的对比条形图和环形图。
16
(2)比较两个班考试成绩分布的特点。
甲班成绩中的人数较多,高分和低分人数比乙班多,乙班学习成绩较甲班好,高分较多,而低分较少。
(3)画出雷达图,比较两个班考试成绩的分布是否相似。
17分布不相似。
3.14已知1995—2004年我国的国内生产总值数据如下(按当年价格计算):
要求:
(1)用Excel绘制国内生产总值的线图。
18绘制第一、二、三产业国(3)20第四章统计数据的概括性描述4.1一家汽车零售店的10名销售人员5月份销售的汽车数量(单位:
台)排序后如下:
24710101012121415要求:
(1)计算汽车销售量的众数、中位数和平均数。
(2)根据定义公式计算四分位数。
(3)计算销售量的标准差。
(4)说明汽车销售量分布的特征。
解:
Statistics汽车销售数量NValid10Missing0Mean9.60Median10.00Mode10Std.Deviation4.169Percentiles256.255010.007512.50214.2随机抽取25个网络用户,得到他们的年龄数据如下:
单位:
周岁1923302341要求;
(1)计算众数、中位数:
2215212027202938192231252219341724181624231、排序形成单变量分值的频数分布和累计频数分布:
网络用户的年龄23从频数看出,众数Mo有两个:
19、23;从累计频数看,中位数Me=23。
(2)根据定义公式计算四分位数。
Q1位置=25/4=6.25,因此Q1=19,Q3位置=3×25/4=18.75,因此Q3=27,或者,由于25和27都只有一个,因此Q3也可等于25+0.75×2=26.5。
(3)计算平均数和标准差;Mean=24.00;Std.Deviation=6.652(4)计算偏态系数和峰态系数:
Skewness=1.080;Kurtosis=0.773(5)对网民年龄的分布特征进行综合分析:
分布,均值=24、标准差=6.652、呈右偏分布。
如需看清楚分布形态,需要进行分组。
为分组情况下的直方图:
24为分组情况下的概率密度曲线:
分组:
251、确定组数:
K1lg25lg(n)1.398115.64,取k=6lg
(2)lg20.301032、确定组距:
组距=(最大值-最小值)÷组数=(41-15)÷6=4.3,取53、分组频数表网络用户的年龄(Binned)分组后的均值与方差:
26分组后的直方图:
4.3某银行为缩短顾客到银行办理业务等待的时间。
准备采用两种排队方式进行试验:
一种是所有颐客都进入一个等待队列:
另—种是顾客在三千业务窗口处列队3排等待。
为比较哪种排队方式使顾客等待的时间更短.两种排队方式各随机抽取9名顾客。
得到第一种排队方式的平均等待时间为7.2分钟,标准差为1.97分钟。
第二种排队方式的等待时间(单位:
分钟)如下:
5.56.66.76.87.17.37.47.87.827要求:
(1)画出第二种排队方式等待时间的茎叶图。
第二种排队方式的等待时间(单位:
分钟)Stem-and-LeafPlotFrequencyStem&Leaf1.00Extremes(=<5.5)3.006.6783.007.1342.007.88Stemwidth:
1.00Eachleaf:
1case(s)
(2)计算第二种排队时间的平均数和标准差。
MeanStd.DeviationVariance70.7141430.51(3)比较两种排队方式等待时间的离散程度。
第二种排队方式的离散程度小。
(4)如果让你选择一种排队方式,你会选择哪—种?
试说明理由。
选择第二种,均值小,离散程度小。
4.4某百货公司6月份各天的销售额数据如下:
单位:
万元28257271272276292284297261268252281303238301273310274263240267322236280249265291269278258295要求:
(1)计算该百货公司日销售额的平均数和中位数。
(2)按定义公式计算四分位数。
(3)计算日销售额的标准差。
解:
Statistics百货公司每天的销售额(万元)NValidMissingMeanMedianStd.DeviationPercentiles2550754.5甲乙两个企业生产三种产品的单位成本和总成本资料如下:
300274.1000272.500021.17472260.2500272.5000291.250029要求:
比较两个企业的总平均成本,哪个高,并分析其原因。
调和平均数计算,得到甲的平均成本为19.41;乙的平均成本为18.29。
甲的中间成本的产品多,乙的低成本的产品多。
4.6在某地区抽取120家企业,按利润额进行分组,结果如下:
30计算120家企业利润额的平均数和标准差。
计算分布的偏态系数和峰态系数。
Statistics企业利润组中值Mi(万元)NValid120Missing0Mean426.6667Std.Deviation116.48445Skewness0.208Std.ErrorofSkewness0.221Kurtosis-0.625Std.ErrorofKurtosis0.43831要求:
(1)
(2)解:
4.7为研究少年儿童的成长发育状况,某研究所的一位调查人员在某城市抽取100名7~17岁的少年儿童作为样本,另一位调查人员则抽取了1000名7~17岁的少年儿童作为样本。
请回答下面的问题,并解释其原因。
(1)两位调查人员所得到的样本的平均身高是否相同?
如果不同,哪组样本的平均身高较大?
(2)两位调查人员所得到的样本的标准差是否相同?
如果不同,哪组样本的标准差较大?
(3)两位调查人员得到这l100名少年儿童身高的最高者或最低者的机会是否相同?
如果不同,哪位调查研究人员的机会较大?
32解:
(1)不一定相同,无法判断哪一个更高,但可以判断,样本量大的更接近于总体平均身高。
(2)不一定相同,样本量少的标准差大的可能性大。
(3)机会不相同,样本量大的得到最高者和最低者的身高的机会大。
4.8一项关于大学生体重状况的研究发现.男生的平均体重为60kg,标准差为5kg;女生的平均体重为50kg,标准差为5kg。
请回答下面的问题:
(1)是男生的体重差异大还是女生的体重差异大?
为什么?
女生,因为标准差一样,而均值男生大,所以,离散系数是男生的小,离散程度是男生的小。
(2)以磅为单位(1ks=2.2lb),求体重的平均数和标准差。
都是各乘以2.21,男生的平均体重为60kg×2.21=132.6磅,标准差为5kg×2.21=11.05磅;女生的平均体重为50kg×2.21=110.5磅,标准差为5kg×2.21=11.05磅。
(3)粗略地估计一下,男生中有百分之几的人体重在55kg一65kg之间?
计算标准分数:
Z1=x5560x6560==-1;Z2===1,根据经验规则,男s5s5生大约有68%的人体重在55kg一65kg之间。
(4)粗略地估计一下,女生中有百分之几的人体重在40kg~60kg33之间?
计算标准分数:
Z1=x4050x6050==-2;Z2===2,根据经验规则,女s5s5生大约有95%的人体重在40kg一60kg之间。
4.9一家公司在招收职员时,首先要通过两项能力测试。
在A项测试中,其平均分数是100分,标准差是15分;在B项测试中,其平均分数是400分,标准差是50分。
一位应试者在A项测试中得了115分,在B项测试中得了425分。
与平均分数相比,该应试者哪一项测试更为理想?
解:
应用标准分数来考虑问题,该应试者标准分数高的测试理想。
ZA=x115100x425400==1;ZB===0.5s15s50因此,A项测试结果理想。
4.10一条产品生产线平均每天的产量为3700件,标准差为50件。
如果某一天的产量低于或高于平均产量,并落人士2个标准差的范围之外,就认为该生产线“失去控制”。
下面是一周各天的产量,该生产线哪几天失去了控制?
34周六超出界限,失去控制。
4.11对10名成年人和10名幼儿的身高进行抽样调查,结果如下:
要求:
(1)如果比较成年组和幼儿组的身高差异,你会采用什么样的统计量?
为什么?
均值不相等,用离散系数衡量身高差异。
(2)比较分析哪一组的身高差异大?
35幼儿组的身高差异大。
4.12一种产品需要人工组装,现有三种可供选择的组装方法。
为检验哪种方法更好,随机抽取15个工人,让他们分别用三种方法组装。
下面是15个工人分别用三种方法在相同的时间内组装的产品数量:
单位:
个36要求:
(1)你准备采用什么方法来评价组装方法的优劣?
(2)如果让你选择一种方法,你会作出怎样的选择?
试说明理由。
解:
对比均值和离散系数的方法,选择均值大,离散程度小的。
方法A平均方法B方法C平均128.7333333平均125.5333333165.6标准差标准差标准差2.1313979321.7511900722.774029217离散系数:
VA=0.01287076,VB=0.013603237,VC=0.022097949均值A方法最大,同时A的离散系数也最小,因此选择A方法。
4.13在金融证券领域,一项投资的预期收益率的变化通常用该项37投资的风险来衡量。
预期收益率的变化越小,投资风险越低;预期收益率的变化越大,投资风险就越高。
下面的两个直方图,分别反映了200种商业类股票和200种高科技类股票的收益率分布。
在股票市场上,高收益率往往伴随着高风险。
但投资于哪类股票,往往与投资者的类型有一定关系。
(1)你认为该用什么样的统计量来反映投资的风险?
标准差或者离散系数。
(2)如果选择风险小的股票进行投资,应该选择商业类股票还是高科技类股票?
选择离散系数小的股票,则选择商业股票。
(3)如果进行股票投资,你会选择商业类股票还是高科技类股票?
考虑高收益,则选择高科技股票;考虑风险,则选择商业股票。
386.1调节一个装瓶机使其对每个瓶子的灌装量均值为盎司,通过观察这台装瓶机对每个瓶子的灌装量服从标准差1.0盎司的正态分布。
随机抽取由这台机器灌装的9个瓶子形成一个样本,并测定每个瓶子的灌装量。
试确定样本均值偏离总体均值不超过0.3盎司的概率。
解:
总体方差知道的情况下,均值的抽样分布服从N,的正态分布,由正态分布,标准化得到标准正态分布:
因此,样本均值不超过总体均值的概率P为:
P0.3=PP=2N0,1,=P0.9z0.9=20.9-1,查标准正态分布表得0.9=0.8159因此,P0.3=0.63186.3Z1,Z2,„„,Z6表示从标准正态总体中随机抽取的容量,n=6的一个样本,试确定常数b,使得62PZib0.95i1解:
由于卡方分布是由标准正态分布的平方和构成的:
设Z1,Z2,……,Zn是来自总体N(0,1)的样本,则统计量222Z12Z2Zn服从自由度为n的χ2分布,记为χ2~χ2(n)62因此,令Z,则Z6,那么由概率PZib0.95,i1i1i122i22i26639可知:
b=120.956,查概率表得:
b=12.596.4在习题6.1中,假定装瓶机对瓶子的灌装量服从方差21的标准正态分布。
假定我们计划随机抽取10个瓶子组成样本,观测每个瓶子的灌装量,得到10个观测值,用这10个观测值我们可以求出1n(Yi)2),确定一个合适的范围使得有较大的概样本方差S(Sn1i122率保证S2落入其中是有用的,试求b1,b2,使得p(b1S2b2)0.90解:
更加样本方差的抽样分布知识可知,样本统计量:
(n1)s22~2(n1)此处,n=10,21,所以统计量(n1)s22(101)s29s2~2(n1)1根据卡方分布的可知:
Pb1S2b2P9b19S29b20.90又因为:
2P12n19S22n11因此:
2P9b19S29b2P122n19S2n110.902P9b19S29b2P122n19S22n122P0.9599S20.0590.9040则:
9b120.959,9b29b120.0520.9599,b220.059922查概率表:
0.959=3.325,0.059=19.919,则20.959b19=0.369,b220.0599=1.88417.2某快餐店想要估计每位顾客午餐的平均花费金额。
在为期3周的时间里选取49名顾客组成了一个简单随机样本。
(1)假定总体标准差为15元,求样本均值的抽样标准误差。
(2)在95%的置信水平下,求边际误差。
t,由于是大样本抽样,因此样本均值服从正态分布,因此概率度t=z2因此,tz2z0.025=1.96×2.143=4.2(3)如果样本均值为120元,求总体均值的95%的置信区间。
置信区间为:
=1204.2,1204.2=(115.8,124.2)7.4从总体中抽取一个n=100的简单随机样本,得到=81,s=12。
要求:
2s2大样本,样本均值服从正态分布:
N,或N,nn置信区间为:
z2=1.2z2
(1)构建的90%的置信区间。
置信区间为:
811.6451.2,811.6451.2=(79.03,z2=z0.05=1.645,82.97)
(2)构建的95%的置信区间。
42z2=z0.025=1.96,置信区间为:
811.961.2,811.961.2=(78.65,83.35)(3)构建的99%的置信区间。
置信区间为:
(77.91,z2=z0.005=2.576,812.5761.2,812.5761.2=84.09)7.7某大学为了解学生每天上网的时间,在全校7500名学生中采取重复抽样方法随机抽取36人,调查他们每天上网的时间,得到下面的数据(单位:
小时):
求该校大学生平均上网时间的置信区间,置信水平分别为90%,95%和99%。
解:
(1)样本均值=3.32,样本标准差s=1.61;
(2)抽样平均误差:
重复抽样:
不=1.61/6=0.268重复抽样:
43=0.268×0.998=0.267(3)置信水平下的概率度:
1=0.9,t=z2=z0.05=1.6451=0.95,t=z2=z0.025=1.961=0.99,t=z2=z0.005=2.576(4)边际误差(极限误差):
tz21=0.9,tz=z0.05重复抽样:
z=z0.05=1.645×0.268=0.441不重复抽样:
z2=z0.05=1.645×0.267=0.4391=0.95,tz2=z0.025重复抽样:
z=z0.025=1.96×0.268=0.525不重复抽样:
z2=z0.025=1.96×0.267=0.5231=0.99,tz2=z0.005重复抽样:
z=z0.005=2.576×0.268=0.69不重复抽样:
z2=z0.005=2.576×0.267=0.688(5)置信区间:
1=0.9,重复抽样:
=3.320.441,3.320.441=(2.88,3.76)不重复抽样:
=3.320.439,3.320.439=44(2.88,3.76)1=0.95,重复抽样:
=3.320.525,3.320.525=(2.79,3.85)不重复抽样:
=3.320.441,3.320.441=(2.80,3.84)1=0.99,重复抽样:
=3.320.69,3.320.69=(2.63,4.01)不重复抽样:
=3.320.688,3.320.688=(2.63,4.01)7.9某居民小区为研究职工上班从家里到单位的距离,抽取了由16个人组成的一个随机样本,他们到单位的距离(单位:
km)分别是:
103148691211751015916132假定总体服从正态分布,求职工上班从家里到单位平均距离的95%的置信区间。
解:
小样本,总体方差未知,用t统计量ttn1均值=9.375,样本标准差s=4.11置信区间:
45t
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 统计学 课后 习题 答案