最新第二篇习题答案1.docx
- 文档编号:4393974
- 上传时间:2022-12-01
- 格式:DOCX
- 页数:8
- 大小:104.82KB
最新第二篇习题答案1.docx
《最新第二篇习题答案1.docx》由会员分享,可在线阅读,更多相关《最新第二篇习题答案1.docx(8页珍藏版)》请在冰豆网上搜索。
最新第二篇习题答案1
第二篇概率与推断基础
、讨论题
1.简述随机变量的均数与样本均数的区别。
答:
由随机实验中产生的结果用数值表示的变量叫随机变量。
随机变量X的
均数是指随机变量所有可能值的平均,但它不是一般意义下的平均,而是要把每个取值都按照它的概率来加权之后的平均,每个可能取值的权重就是X取这个值的
概率。
通常用而不是简单的来表示随机变量X的均数,这样有利于我们理解描述的到底是哪一个随机变量。
样本均数是指某样本所有观测值的平均值,是描述样本数据特征的一个统计量,通常用X表示。
对于一个特定总体而言,样本观测值会随抽取的样本不同而变化,相应的样本均数也会因样本的不同而变化。
但是随机变量X的均数是一个描述总体特征的参数,它是随机变量所有可能取值的平均值。
2.简要回答二项分布、Poisson分布及正态分布的区别与联系答:
(1)三者的区别
表4-1三种分布的比较
可加性
(2)三者的联系
Poisson分布是二项分布的特殊情况,服从Poisson分布的资料也肯定服从二项分布。
因此,能用Poisson分布法处理的资料原则上也能用二项分布来处理(但需知道总观察数和阳性数),只不过此时计算较繁而已。
反之则不然,服从二项分布者不一定都能用Poisson分布法来处理,需满足Poisson分布的近似条件才可。
不论二项分布还是Poisson分布,只有满足正态近似条件时才可用正态近似法。
当然此时也可用两种分布相应的方法,但正态近似法较为简便。
3.指出下述陈述的错误并给出解释。
(1)中心极限定理指出对于大样本而言,总体均数」近似服从正态分布。
答:
此描述的错误主要在后半句总体均数卩近似服从正态分布”,中心极限定理是针对样本均数而言的。
中心极限定理是指从任意均数等于丄,方差等于二2的
一个总体中抽取样本量为n的简单随机样本。
当样本量n很大时,无论总体分布形态如何,样本均数的抽样分布近似正态分布。
(2)对于大样本而言,观察值近似服从正态分布。
答:
当样本量n很大时,无论总体分布形态如何,样本均数的抽样分布近似正态分布。
即中心极限定理是针对样本均数而言。
(3)从总体进行简单随机抽样,抽取的样本量越大,样本均数的标准差越大。
样本均数的标准差越小
4.如何理解样本率的抽样分布同样遵循中心极限定理”?
答:
二项分布可看成多次伯努利试验的和:
用s=1时表示结果第i次实验成
功”,S=0时表示第i次实验结果失败”,可以将各个S相加得到总的成功”次数
(即X=S+S2+..+S),而成功”率为p=(S+S2十…+S)/n,可将其看做一个均数,即样本量为的样本率可以用取值为0和1变量的样本均数来表示,因此其同样也遵循中心极限定理。
5.使用置信区间的常见注意事项。
答:
1公式X_z•二”韦不适用于所有抽样方法,不同的抽样方法需采用不同的均数估计公式;
2数据须来自相应总体的简单随机抽样,个体间相互独立是使用上述估计公式
的前提;
3对于来自随意收集且偏倚较大的数据,没有恰当的方法进行统计推断,统计分析无法拯救糟糕的数据;
4在计算置信区间之前往往需先对数据进行探索性分析,例如找出异常值,检验数据是否服从正态分布;
5公式X_z•二用是事先假定总体标准差二已知,实际研究中很可能无法得到总体标准差二。
当样本量较大时,可选用样本标准差s估计二,对应置信区间可用公式x_z,sb.n近似估计;
6实际操作中的问题(如无应答与失访)会给抽样研究带来额外的误差,这些误差可能比随机抽样误差大得多,并且研究结果中这些误差并不能被误差范围所反映;
7统计推断的概率是指该方法重复进行的正确频率,即在100次抽样中,平均
而言95%置信区间有95次包含了总体均数,但并不知道某一次结果的正确性。
6.解释零假设与备择假设的含义。
答:
零假设又称无效假设,记为H。
,是在我们没有证明某现象之前做出的保守推测,是被用来检验的假设,通常表述为没有差异”表示差异是由抽样误差引
起的;备择假设又称对立假设,记为比,表示其差异是因为比较的对象之间存在
本质不同。
在现实研究中,H!
描述的往往是我们希望看到的结果。
7.假设检验的思想、步骤及其与置信区间的区别与联系。
答:
假设检验的思想:
我们对总体特征(如参数、分布)进行某种推测,进而用概率来判断样本数据所提供的信息和我们对总体特征猜想的一致性,根据小概率反证法思想,结合专业知识判断这一猜想的正确性。
假设检验的步骤:
(1)建立检验假设,确定检验水准;
(2)计算检验统计量;
(3)确定P值,做出统计推断。
假设检验与置信区间的区别与联系:
(1)联系:
对于同一资料其统计推断结论是等价的,可信区间也可回答假设检验的问题。
如已知的总体均数在样本均数所估计的可信区间之内时,可认为两个总体均数相同,反之则可认为不同。
(2)区别:
置信区间估计用于推断总体参数所在的范围,而假设检验用于推断总体参数之间是否不同。
置信区间在回答差别有无统计学意义的同时,还能提供一些假设检验不能提供的信息,并可以提示差别是否具有实际意义。
因此,置信区间与假设检验的作用是相辅相成的,将两者结合起来,可以提供更为全面的统计推断信息。
8.解释第I类错误、第II类错误和检验效能以及它们之间的关系。
答:
第I类错误:
当Ho为真,拒绝H。
(接受Hi),此时的错误称为第I类错误,其发生的概率记为〉。
第U类错误:
当Hi为真,接受H。
(拒绝Hi),此时的错误称为第U类错误,其发生的概率记为1。
检验效能:
检验水准为:
•,当Hi为真时,假设检验能够拒绝Ho的概率称为能发现该Hi的检验效能。
三者的关系为:
固定检验水准下的检验效能就是i减第U类错误去犯第U类错
误的概率,即检验效能为i-「当样本量固定时,:
与]成反比,与(i-1)成正比;如果把:
设置得很小,势必增大犯II型错误的概率,从而降低检验效能;反
之,如果重点在于减少「势必增加犯I型错误的概率,从而降低了置信度。
要同
时减小〉和「只有通过增加样本含量来实现。
二、综合分析题
1.经长期临床观察,胃溃疡患者发生胃出血的率为20%,某医院随机观察了
20例65岁以上老年胃溃疡患者。
(1)求其中没有1例发生胃出血症状的概率。
(2)求最多有8例发生胃出血症状的概率。
答:
(1)需要计算的没有1例发生胃出血症状的概率,即Pr(X=O),可以采用公式Pr(X=O)20!
O.20O.820来计算,也可以采用软件进行计算,例如应
0!
(20-0]
用R软件输入语句:
P1=dbinom(0,20,0.2)运行后得到P1~0.012
8
(2)需要计算下侧累计概率,即P(X^8)=vP(X),手工计算会比较复杂,
0
可采用统计软件进行计算。
例如应用R软件输入语句:
P2=pbinom(8,20,0.2戸0.99
2•某乡镇有人口10000人。
该地疾病预防控制中心拟在该乡进行一次血吸虫感染率普查,方法是先将每10人的粪便作为一个混合样本,若为阴性,则10人均
为阴性;若为阳性,再对该混合样本的10人粪便逐人检查。
问此法比一般的逐人
粪便检查法减少多大工作量(假设血吸虫感染率为5%)?
。
答:
这是一个二项分布问题,n=0.05,n=10。
按10人一个混合样品,应有
1000个混合样品。
这1000个混合样品都必须做一次检查,阳性者还要分别检查,因此总的预期检查次数为:
N二混合样品数+混合样品阳性率刈昆合样品数X10
可见,关键为求混合样品的阳性率。
已知每份样品的阳性率为5%,阴性率即
为1-0.05=0.95,10份样品均为阴性的概率按二项分布为P(0)=0.9510=0.5987,于
10
是混合样品为阳性的概率为1-0.95。
N=1000+(1-0.5987)X000X10=5013。
节约的工作量即为10000-5013=4987次(约50%)。
3.某地18岁女青年收缩压(mm-Hg)服从N(110,122)。
在该地随机选一名
18岁女青年
匚,测量她的收缩压为X(mm-Hg)。
(1)求Pr{X<105},Pr{100:
:
:
X^120};
(2)确定最小的X,使Pr{X.x}<0.05
答:
(1)通过将X标准化为标准正态变量Z后再来求概率
十105一110一0.42,z2」°°—110「0.83,;
1212
“120一110"83
12
要求,查标准正态分布表得:
①(乙)=①(一0.42)=0.3372
①(z2)二①(-0.83)=0.2033
①(z3)=1-0(-0.83)二1-0.2033二0.7967
于是Pr{X<105}=0.3372,
P(100:
:
X「20)①(z3)-①(z2)=0.7967-0.2033=0.5934
x-110x-110
1-①(古)405,则p」64,解不等式得到:
x=129.6&
4.假设已知高校学生每晚睡眠时间近似服从均数为6.78小时,标准差为1.24
小时的正态分布。
现计划采用简单随机抽样方法抽取150例高校学生,计算每晚平
均睡眠时间。
(1)该样本平均睡眠时间的标准差是多少?
(2)使用“695-97.5法则”描述该样本均数的变异。
(3)计算平均睡眠时间低于6.9小时的概率。
答:
(1)由题干知,高校学生每晚睡眠时间近似服从正态分布,」=6.78小
时,厂-1.24小时,此时n=150,根据中心极限定理,样本均数X的均数为」,样本均数x的标准差为/...n,所以:
七」=6.78
「二:
二/、n-1.24/.150:
0.10
(2)根据“68)5-97.5法则”约68%的样本均数在(6.68,6.88)内;约95%的样本均数在(6.58,6.98)内;约99.7%的样本均数在(6.48,7.08)内。
(3)要求的累计概率是Pr(X:
:
:
6.9)
5•已知某地近5年儿童晓虫感染率平均为35%(设为总体率),该地疾病预防控制中心为了解今年该地儿童晓虫病感染情况,随机抽样调查了100名儿童。
(1)请问此样本率的均数和标准差分别为多少?
(2)如果希望样本率的标准差小于0.02,贝U随机抽样的样本量需要达到多少?
答:
(1)此时n「:
及n(1-二)均大于5,样本率p的抽样分布近似服从正态分
布,可用公式%和二卩-、二(1一二)/n来分别计算样本率p的均数和标准差,即:
「P=二=0.35
S=疾(1二j/n一=吨0.35一(1二0.35)]/100、0.048
(2)由二卩-.「(1一二)/n,得n-二(17()/二2,样本率的标准差越小则需要的
样本量越大,当样本率的标准差为0.02时,n~569因此,如果希望样本率的标准
差小于0.02,则随机抽样的样本量至少需要569人。
6.在某市随机抽取90名19岁健康男性大学生,测量他们的身高,得样本均数
为172.2cm,标准差为4.5cm。
(1)请估计该市19岁健康男性大学生平均身高的95%置信区间。
(2)如果希望95%的误差范围是1cm,则需要调查该市多少名19岁健康男
性大学生?
答:
(1)二=4.5cm,z=1.96,可得均数的95%置信区间的误差范围为:
m=z二-1.96一4.50.93cm
.n.90
则:
乂_m=172.2_0.93二171.27,173.13cm
因此,该市19岁健康男性大学生平均身高的95%置信区间为(171.27,173.13)cm
2
78
(2)若95%的误差范围是1cm,则
m2
7•某医院呼吸内科用相同方法测定随机抽样得到的两组患者的动脉血二氧化碳分压,肺心病患者240例,s为10.48±.20(kPa);慢性支气管炎合并肺气肿患者200例,x-s为6.12±1.51(kPa)。
(1)请计算两组患者的血液二氧化碳分压的95%置信区间,并比较两组95%置信区间的误差范围。
(2)若正常人动脉血二氧化碳分压平均为5.15(kPa),请问慢性支气管炎合并肺气肿患者与正常人的动脉血二氧化碳分压是否有差异?
答:
(1)因为两组样本量均比较大,可以用样本标准差作为总体标准差的估
计值,即5=6.2,二2=1.51,z=1.96,可得均数的95%置信区间为:
:
0.78
岳_叶=10.48_0.78=]9.7,11.26
X2_m2=6.12_0.2仁5.91,6.33
因此,肺心病患者动脉血二氧化碳分压95%置信区间的误差范围是0.78,其
95%置信区间为(9.7,11.26)kPa;慢性支气管炎合并肺气肿患者动脉血二氧化碳分压
95%置信区间的误差范围是0.21,其95%置信区间为为(5.91,6.33)kPs。
(2)H0:
慢性支气管炎合并肺气肿患者与正常人的动脉血二氧化碳分压均值
无差异,即2-^0;
H1:
慢性支气管炎合并肺气肿患者与正常人的动脉血二氧化碳分压均值有差异,
.>=0.05z=9.081.96,P.0.05,拒绝H。
,差异有统计学意义,可认为慢性支气管炎合并肺气肿患者与正常人的动脉血二氧化碳分压均值有差异
8.已知服用某种营养素一个周期后,受试者某项生化指标平均增加20个单位,
现有研究结果表明该项生化指标平均增加30个单位提示营养素有较低程度的营养
改善效果,若该项生化指标平均增加40个单位提示有中等程度的营养改善效果。
为检验该营养素的营养改善效果,该研究采用单侧检验,H。
:
:
=20,H1:
=30,
检验效能为0.6。
如果备择假设为巴:
:
=40,检验效能会高于0.6还是会低于0.6?
请画图解释。
答:
若与的差异增加,如下图,的概率分布整体向右移动而临界值不
变,从而检验效能增加。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最新 第二 习题 答案