概率与统计随机抽样用样本估计总体变量间的相互.pptx
- 文档编号:30810062
- 上传时间:2024-01-30
- 格式:PPTX
- 页数:80
- 大小:267.79KB
概率与统计随机抽样用样本估计总体变量间的相互.pptx
《概率与统计随机抽样用样本估计总体变量间的相互.pptx》由会员分享,可在线阅读,更多相关《概率与统计随机抽样用样本估计总体变量间的相互.pptx(80页珍藏版)》请在冰豆网上搜索。
第十模块概率与统计第四十八讲随机抽样用样本估计总体变量间的相互关系统计案例,回归课本,1.样本及抽样的定义
(1)在数理统计中称研究对象的全体为总体,组成总体的每一个基本单元为个体,从总体中抽取若干个个体x1,x2,xn,这样的n个个体x1,x2,xn称为大小为n(容量为n)的一个样本.
(2)抽样:
抽样是为了获取总体的信息,特别在客观实际中对总体的全部个体逐一进行研究,有的是不适宜不可能或不必要的.因此,抽样调查是获取总体信息的重要方法.,2.随机抽样
(1)简单随机抽样:
从一个总体中通过逐个抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的概率相等,这样的抽样称为简单随机抽样.这样抽出的样本称为简单随机样本.简单随机抽样的基本方法有抽签法和随机数表法.,
(2)系统抽样:
系统抽样被称为等距抽样或机械抽样.它按照时间或空间的等距间隔抽取样本,即将总体分成几个部分,然后按照预先定出的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样称为系统抽样.系统抽样与简单随机抽样的联系在于:
将总体均分后的每一部分进行抽样时,采用的是简单随机抽样.,(3)分层抽样:
当总体中一部分个体与另一部分个体有明显的差异且易于区别时,常将相近的个体归成一组,然后按照各部分所占的比例进行抽样,这种抽样称为分层抽样.其中所分成的各部分称为层.分层抽样时,每一个个体被抽到的概率都是相等的.,3.频率分布表频率分布直方图与茎叶图
(1)频率分布样本中所有数据(或者数据组)的频数和样本容量的比,就是该数据的频率.所有数据(或者数据组)的频率的分布变化规律叫做频率分布,可以用频率分布表频率分布直方图频率分布折线图茎叶图等来表示.
(2)频率分布折线图:
连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.,(3)总体密度曲线如果样本容量不断增大,分组的组距不断缩小,则频率分布直方图实际上越来越接近于总体在各小组内所取值的个数与总数比值的大小,它可以用一光滑曲线来描绘,这条光滑曲线就叫做总体密度曲线.(4)茎叶图表示数据有两个突出的优点,其一是统计图上没有原始数据的损失,所有信息都可以从这个茎叶图中得到,其二是在比赛时随时记录,方便记录与表示.,4.用样本的数字特征估计总体的数字特征
(1)众数,中位数,平均数在一组数据中,出现次数最多的数据叫做这组数据的众数.将一组数据按大小依次排列,把处在中间位置的一个数据(或中间两个数据的平均数)叫做这组数据的中位数.,如果n个数,x1,x2,xn,那么(x1+x2+xn)叫做这n个数的平均数.总体中所有个体的平均数叫做总体平均数.样本中所有个体的平均数叫做样本平均数,如果在n个数据中,x1出现了f1次,x2出现f2次,xk出现fk次(这里f1+f2+fk=n),那么(x1f1+x2f2+xkfk),叫做这n个数的加权平均数.,5.两个变量的相关关系
(1)当自变量的取值一定时,因变量的取值带有随机性,这两个变量之间的关系叫做相关关系.如果一个变量的值由小变大时,另一个变量的值也在由小到大,这种相关称为正相关;反之,如果一个变量的值由小变大时,另一个变量的值在由大到小,这种关系称为负相关.变量间的这种关系与函数关系不同,它是一种非确定关系.,
(2)散点图:
表示具有相关关系的两个变量的一组数据的图形叫做散点图.,6.回归直线方程
(1)一般地,设x和y是具有相关关系的两个变量,且对应于n个观测值的n个点大致分布在一条直线的附近,若所求的直线方程为,我们将这个方程叫做回归直线方程,a,b叫做回归系数,相应的直线叫做回归直线.
(2)最小二乘法使离差平方和Q=(y1-bx1-a)2+(y2-bx2-a)2+(yn-bxn-a)2为最小的方法,叫做最小二乘法.,7.回归分析
(1)回归直线方程=bx+a中,上述方程对应的直线叫做回归直线,而对两个变量所进行的上述统计分析叫做线性回归分析.相关系数,用相关系数来描述线性相关关系的强弱.当r0时,两个变量正相关;当r0时,两个变量负相关,r的绝对值越接近1,表明两个变量的线性相关性越强,r的绝对值接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r|大于r0.05时,认为两个变量有很强的线性相关关系,因而求回归直线方程才有意义.,数据点和它在回归直线上相应位置的差异(y1-i)是随机误差效应,称i=yi-i为残差,将所得值平方后加起来,用数学符号表示为(yi-i)2称为残差平方和,它代表了随机误差的效应.,8.独立性检验
(1)分类变量的定义如果某种变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.,
(2)22列联表一般地,假设有两个分类变量X和Y,它们的值域分别为x1,x2和y1,y2,其样本频数列联表(称为22列联表)为,K2=用它的大小可以决定是否拒绝原来的统计假设H0,如果K2值较大,就拒绝H0,即拒绝事件A与B无关.,考点陪练,1.(2010重庆)某单位有职工750人,其中青年职工350人,中年职工250人,老年职工150人,为了了解该单位职工的健康情况,用分层抽样的方法从中抽取样本.若样本中的青年职工为7人,则样本容量为()A.7B.15C.25D.35解析:
设样本容量为n,则依题意有n=7,n=15,选B.答案:
B,2.(2010湖北)将参加夏令营的600名学生编号为:
001,002,600.采用系统抽样方法抽取一个容量为50的样本,且随机抽得的号码为003.这600名学生分住在三个营区,从001到300的第营区,从301到495在第营区,从496到600在第营区,三个营区被抽中的人数依次为()A.26,16,8B.25,17,8C.25,16,9D.24,17,9,解析:
依题意及系统抽样的意义可知,将这600名学生按编号依次分成50组,每一组各有12名学生,第k(kN*)组抽中的号码是3+12(k-1).令3+12(k-1)300,得k,因此第营区被抽中的人数是25;令3003+12(k-1)495得k42,因此第营区被抽中的人数是42-25=17.结合各选项知,选B.答案:
B,3.(2010山东)在某项体育比赛中,七位裁判为一选手打出的分数如下:
90899095939493去掉一个最高分和一个最低分后,所剩数据的平均值和方差分别为()A.92,2B.92,2.8C.93,2D.93,2.8,解析:
去掉一个最高分95分与一个最低分89分后,所得的5个数分别为9090939493,所以故选B.答案:
B,4.(2010福建)若某校高一年级8个班参加合唱比赛的得分如茎叶图所示,则这组数据的中位数和平均数分别是()A.91.5和91.5B.91.5和92C.91和91.5D.92和92,解析:
中位数为(91+92)=91.5;平均数为(87+89+90+91+92+93+94+96)=91.5.答案:
A,5.(2010湖南)某商品销售量y(件)与销售价格x(元/件)负相关,则其回归方程可能是()A.=-10x+200B.=10x+200C.=-10x-200D.=10x-200解析:
由图象知选项BD为正相关,选项C不符合实际意义,故选A.答案:
A,类型一抽样方法的综合应用解题准备:
1.简单随机抽样:
抽签法:
搅拌均匀后逐一抽取.随机数表法:
注意编号的灵活性,如对100个个体可用00,01,01,02,99来编号.2.系统抽样:
对多余个体的剔除不影响总体中每个个体被抽到的等可能性,仍然能保证抽样的公平性.例如从1002个体中利用系统抽样抽取容量为20的样本,剔除2个个体后,每个个体被抽到的可能性仍为,3.分层抽样:
当总体中个体差异较大时,往往采用分层抽样的方法,若有某些层面应抽取的个体数目不是整数时,可作适当的细微调整.,【典例1】为了考察某校的教学水平,将抽查这个学校高三年级的部分学生本年度的考试成绩.为了全面反映实际情况,采取以下三种方式进行抽查(已知该校高三年级共有20个班,并且每个班内的学生已经按随机方式编好了学号,假定该校每班学生的人数相同):
从高三年级20个班中任意抽取一个班,再从该班中任意抽取20名学生,考察他们的学习成绩;每个班抽取1人,共计20人,考察这20名学生的成绩;,把学生按成绩分成优秀、良好、普通三个级别,从其中共抽取100名学生进行考察(已知该校高三学生共1000人,若按成绩分,其中优秀生共150人,良好生共600人,普通生共250人).根据上面的叙述,试回答下列问题:
(1)上面三种抽取方式的总体、个体、样本分别是什么?
每一种抽取方式抽取的样本中,样本容量分别是多少?
(2)上面三种抽取方式各自采用的是何种抽取样本的方法?
(3)试分别写出上面三种抽取方式各自抽取样本的步骤.,分析本题主要考查基本概念和三种抽样方法的联系与区别,准确把握三种抽样方法的概念与特点是解此题的关键;另外要注意叙述的完整性和条理性.解
(1)这三种抽取方式的总体都是指该校高三全体学生本年度的考试成绩,个体都是指高三年级每个学生本年度的考试成绩.其中第一种抽取方式的样本为所抽取的20名学生本年度的考试成绩,样本容量为20;第二种抽取方式的样本为所抽取的20名学生本年度的考试成绩,样本容量为20;第三种抽取方式的样本为所抽取的100名学生本年度的考试成绩,样本容量为100.,
(2)三种抽取方式中,第一种采用的是简单随机抽样法;第二种采用的是系统抽样法和简单随机抽样法;第三种采用的是分层抽样法和简单随机抽样法.(3)第一种方式抽样的步骤如下:
第一步,用抽签法在这20个班中任意抽取一个班;第二步,从这个班中按学号用随机数表法或抽签法抽取20名学生,考察其考试成绩.第二种方式抽样的步骤如下:
第一步,用简单随机抽样法从第一个班中任意抽取一名学生,记其学号为a;第二步,在其余的19个班中,选取学号为a的学生,加上第一个班的一名学生,共计20人.,第三种方式抽样的步骤如下:
第一步,分层.因为若按成绩分,其中优秀生共150人,良好生共600人,普通生共250人,所以在抽取样本时,应该把全体学生分成三个层次;第二步,确定各个层次抽取的人数.因为样本容量与总体的个数之比为100:
1000=1:
10,所以在每个层次中抽取的个体数依次为即15,60,25;第三步,按层次分别抽取.在优秀生中用简单随机抽样法抽15人;在良好生中用简单随机抽样法抽取60人;在普通生中用简单随机抽样法抽取25人.,类型二频率分布直方图和茎叶图解题准备:
1.作频率分布直方图的步骤:
(1)求极差,即一组数据中最大值和最小值的差.
(2)决定组距与组数.将数据分组时,组数应力求合适,以使数据的分布规律能较清楚的呈现出来.这时应注意:
一般样本容量越大,所分组数越多;为方便起见,组距的选择应力求“取整”;当样本容量不超过100时,按照数据的多少,通常分成512组.,(3)将数据分组.(4)计算各小组的频率,作频率分布表.各小组的频率(5)画频率分布直方图.,2.茎叶图的制作步骤如下:
(1)将所有两位数的十位数字作为“茎”,茎按从小到大顺序排列,茎相同者共用一个茎,再画上竖线作为分界线.
(2)在分界线的一侧对应“茎”处,记录下“叶”个位数字,一般共茎的叶按从小到大(或从大到小)的顺序同行列出.,【典例2】为了解某校初中毕业男生的体能状况,从该校初中毕业班学生中抽取若干名男生进行铅球测试,把所得数据(精确到0.1米)进行整理后,分成6组画出频率分布直方图的一部分(如下图),已知从左到右前5个小组的频率分布为0.04,0.10,0.14,0.28,0.30.第6小组的频数是7.,
(1)请将频率分布直方图补充完整;,
(2)该校参加这次铅球测试的男生有多少人?
(3)若成绩在8.0米以上(含8.0米)的为合格,试求这次铅球测试的成绩的合格率;(4)在这次测试中,你能确定该校参加测试的男生铅球成绩的众数和中位数各落在哪个小组内吗?
解
(1)由频率分布直方图的意义可知,各小组频率之和为1,故第6小组的频率为:
1-(0.04+0.10+0.14+0.28+0.30)=0.14,易知第6小组与第3小组的频率相等,故两个小长方形等高.,
(2)由
(1)知,第6小组的频率是0.14.又因为第6小组的频数是7,现设参加这次测试的男生有x人,根据频率定义,得即x=50(人).(3)由图可知,第456小组成绩在8.0米以上,其频率之和为:
0.28+0.30+0.14=0.72,故合格率为72%.(4)能确定中位数落在第4小组,而众数落在第5小组.,反思感悟解决该类问题时应正确理解图表中各个量的意义,识图掌握信息是解决该类问题的关键.频率分布指的是一个样本数据在各个小范围内所占的比例的大小.一般用频率分布直方图反映样本的频率分布.其中,频率分布直方图中纵轴表示频率频率分布直方图中,各小长方形的面积之和为1,因此在频率分布直方图中,组距是一个固定值,所以各个长方形高的比也就是频率之比;,频率分布表和频率分布直方图是一组数据频率分布的两种形式,前者准确,后者直观;众数为最高矩形的中点;中位数为平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标.,探究某化肥厂甲乙两个车间包装肥料,在自动包装传送带上每隔30min抽取一包产品,称其重量,分别记录抽查数据如下:
甲:
102,101,99,98,103,98,99;乙:
110,115,90,85,75,115,110.
(1)这种抽样方法是哪一种?
(2)将这两组数据用茎叶图表示;(3)将两组数据比较,说明哪个车间产品较稳定.,解
(1)因为间隔时间相同,故是系统抽样.
(2)茎叶图如下:
(3)甲车间:
平均值:
(102+101+99+98+103+98+99)=100,方差:
(102-100)2+(101-100)2+(99-100)23.4286.,反思感悟
(1)茎叶图的优点是保留了原始数据,便于记录及表示,能反映数据在各段上的分布情况.
(2)茎叶图不能直接反映总体的分布情况,这就需要通过茎叶图给出的数据求出数据的数字特征,进一步估计总体情况.,类型三线性回归的应用解题准备:
求线性回归方程的步骤为:
(1)列表xi,yi,xiyi;
(2)计算(3)代入公式计算b,a的值;(4)写出回归方程.,【典例3】以下是某地搜集到的新房屋的销售价格y和新房屋的面积x的数据:
(1)画出数据对应的散点图;
(2)求线性回归方程,并在散点图中加上回归直线;(3)据
(2)的结果估计当新房屋面积为150m2时的销售价格.,解
(1)数据对应的散点图如图所示:
(3)据
(2),当x=150时,销售价格的估计值为:
=0.1962150+1.8166=31.2466(万元).,类型四独立性检验解题准备:
独立性检验的一般步骤:
(1)根据样本数据制成22列联表.
(2)根据公式K2=计算K2的值.(3)比较K2与临界值的大小关系作统计推断.,【典例4】(2009江苏模拟题)利用统计变量K2的观测值来判断两个分类变量之间的关系的可信程度.考查小麦种子经灭菌与否跟发生黑穗病的关系,经试验观察,得到数据如下表所示:
试按照原试验目的作统计分析推断.分析利用已知条件来判断两个分类变量是否具有关系,可以先假设两个变量之间有关系,再计算K2的值,K2的值越大说明两个变量间有关系的可能性越大,再参考临界值,从而判断两个变量有关系的可信程度.,解由列表知,a=26,b=184,c=50,d=200,a+b=210,c+d=250,a+c=76,b+d=384,n=460.,有95%的把握认为种子灭菌与否与小麦发生黑穗病是有关系的.,反思感悟
(1)独立性检验的关键是准确的计算K2,在计算时,要充分利用22列联表.
(2)学习相关和无关的判定一定要结合实际问题,从现实中寻找例子,从而增强学习数学的兴趣.,错源一对简单随机抽样的理解不到位【典例1】下面的抽样中,是简单随机抽样的个数是()从无数个个体中抽取20个个体作为样本;从50台冰箱中一次性抽取5台冰箱进行质量检查;某班有40名同学,指定个子最高的5名同学参加学校组织的篮球赛;一彩民选号,从装有36个大小形状都相同的号签的盒子中无放回地抽取6个号签,A.4B.3C.2D.1错解都是简单随机抽样,故选A.剖析不清楚简单随机抽样有以下四个特点:
(1)总体个数有限;
(2)逐个抽取;(3)不放回;(4)公平性.每个个体被抽到的可能性相同.因此,要深刻理解概念,深挖其内涵.,正解总体个数无限,故不是简单随机抽样;虽然“一次性”抽取和“逐个”抽取不影响个体被抽到的可能性,但不满足简单随机抽样的定义;因为指定5名同学参赛,每个个体被抽到的可能性不相同,不是等可能抽样;是简单随机抽样.故选D.答案D,错源二频率分布直方图中小长方形高的含义模糊不清【典例2】如图是一个容量为200的样本频率分布直方图,请根据图形中的数据填空:
(1)样本数据落在5,9)的频率为_;
(2)样本数据落在9,13)的频率为_.错解
(1)落在5,9)的频率为0.08.
(2)落在9,13)的频率为0.09.,剖析频率分布直方图中纵轴表示,而不直接表示频率.正解
(1)落在5,9)的频率为0.084=0.32;
(2)落在9,13)的频率为0.094=0.36.答案0.320.36,技法一构造22列联表进行独立性检验【典例1】为观察药物A,B治疗某病的疗效,某医生将100例该病病人随机的分成两组,一组40人,服用A药;另一组60人,服用B药.结果发现:
服用A药的40人中有30人治愈;服用B药的60人中有11人治愈.问A,B两药对该病的治愈率之间是否有显著差别?
解题切入点首先应考察该资料取自什么样的试验设计.由于100个病人完全随机地被分成2组,而且,事先不知道任何一个病人的治疗结果是治愈还是不能治愈,故该资料取自完全随机统计,符合22列联表的要求.,解为便于将数据代入公式计算,先列出22列联表:
因为31.85910.828,所以我们有99.9%的把握说,A,B两药对该病的治愈率之间有显著差别.方法与技巧上述结论是对所有服用A药或B药的病人而言的,绝不要误以为只对100个病人成立.这就体现了统计的意义,即由样本推断出全体.,技法二数形结合思想【典例2】为了了解中学生的身高情况,对某中学同龄的若干女生的身高进行测量,将所得数据整理后,画出频率分布直方图如图所示,已知图中从左到右15组的频率分别为0.05,0.10,0.15,0.15,0.30,68组的频数分别为7,5,3,第二小组的频数为6.,
(1)画出频率分布表;
(2)试问这组数据中的中位数在哪个身高的范围内?
(3)如果本次测试身高在157cm以上(包括157cm)的为良好,试估计该校女生身高良好率是多少?
解题切入点通过第二组的频数和频率先求出学生总数,其他问题就十分容易解决了,主要考查同学们对频率分布表和频率分布直方图的掌握情况,考查识图读图的能力,以及灵活运用图表解决实际问题的能力.,解
(1)因为第二组的频数是6,频率是0.1,所以学生总数为60.1=60,所以15组的频数分别为3,6,9,9,18;68组的频率分别为,频率分布表如下表所示:
(2)中位数在157cm160cm之间.(3)因为1-0.05-0.1-0.15-0.15=0.55,所以良好率是0.55.方法与技巧数形结合的思想是重要的思想方法之一,具有直观性灵活性,有较强的综合性.数形结合的思想的实质就是把抽象的数学语言与直观的图形结合起来,使抽象思维与形象思维结合起来.,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 概率 统计 随机 抽样 样本 估计 总体 变量 相互