书签分享收藏举报版权申诉 / 34

立即下载加入VIP,免费下载

当前位置：首页 > 外语学习 > 其它语言学习 > 《数据科学统计计算》课后习题答案汇总chap1--chap6..pdf

《数据科学统计计算》课后习题答案汇总chap1--chap6..pdf

文档编号：30839563
上传时间：2024-01-30
格式：PDF
页数：34
大小：3.34MB

《《数据科学统计计算》课后习题答案汇总chap1--chap6..pdf》由会员分享，可在线阅读，更多相关《《数据科学统计计算》课后习题答案汇总chap1--chap6..pdf（34页珍藏版）》请在冰豆网上搜索。

《数据科学统计计算》课后习题答案汇总chap1--chap6..pdf

数据科学统计计算课后习题答案统计计算第一章课后题1.Pareto（a,b）分布具有累积分布函数：

bF（x）=1一（一厂，xb0,a0.

（1）x请利用逆变换法模拟。

=2,6=2的Pareto分布随机样本。

并尝试通过在分布密度曲线图上同时绘制样本密度直方图比较模拟效果。

解答：

密度函数满足以下两个条件：

（1）存在反函数，

（2）原函数在定义域上是连续单调递增的，通过计算反函数为an（b）-ln（l-j）x=exp-.aset.seed

（1）n-100eta-NULLi-la-2b-2while（i=n）r-runif（1,0,1）p-exp（a*log（b）-log（l-r）/a）etai-pi=i+l）hist（eta,30,freq=F,main=Pareto（2.2）v,ylim=c（0,1）xO-seq（min（eta）,max（eta）,0.001）fx-a*bAa/（xOA（a+l）lines（x0,fx,col=2）2.生成一个大小1000、服从正态位置混合变量的随机样本，混合变量的分量分别服从N（0,l）分布和N（3,1）分布，混合密度分别为pi=“2=0.5。

请绘制叠加密度曲线的样本直方图。

解答：

首先生成符合t/（0,1）的随机数uh如果M,pi,则生成N（0,1）的随机数，否则生成N（3,l）的随机数set.seed（123）n-1000i-lp-0.5eta-NULLwhilc（i=n）u-runif（1,0,1）if（up）etai-morm（1,0,1）elseetai-morm（l,3J）i=i+lhist（eta,freq=F,main=,0.5N（0,1）+0.5N（3,1）,）xO-seq（min（eta）,max（eta）,0.001）fx0,o-0.请设计多种能够生成上述分布的算法。

取。

=1,尝试通过直方图与密度曲线图比较效果。

解答：

（1）逆变换抽样法：

对原概率密度函数/（）=3exp-乐,求分布函数可得%2E（x）=1-exp-（x0）.该函数在x（）连续并且严格单调递增的，可以使用逆变换抽样法。

先求F（x）反函数可得exP-器=1_乂=x-V-2（r2ln（l-?

）.n-1（）000#生成10000个随机数sigma=1r-matrix（runif（n,0,1）,n,1）#生成均匀分布随机数$x-sqrt（-2*sigmaA2*log（l-r）#反函数x0=seq（0,4,0.01）fx=xO/（sigmaA2）*exp（-xOA2/（2*sigmaA2）/原概率密度函数hist（x,20,freq=F,main=,Rayleigh

（1）lines（x0,fx,*1,col=2）2

（2）变换抽样法：

首先证明，对于参数为。

的Rayleigh分布，可以看作两个互相独立正态随机变量Xi,X2N（0,a2）求平方和后开根号，即：

y=（x：

+x1）i/2.根据X1,X2概率密度函数f,Xi）=：

e,i=1,2,由于两个随机变量独立，所以（为,乂2）联合概率密度函数为/（孙冷）=痔eb.则y的分布函数为:

12穴（T?

12na2In=x1）dxdx2o/,27TQI（r2（l-e）dO031n-10000i-lsigma-1eta-NULLwhile（i=n）set.seed（i）x1-rnonn（1,0,1）x2-morm（1,0,1）etai-sqrt（xlA2+x2A2）i=i+lhist（eta,20,freq=F,inain=,Rayleigh（lyylim=c（0,0.8）xO-seq（min（eta）,max（eta）,0.01）fx-xO*exp（-xOA2/2）lines（x0,fx,col=2）4.离散随机变量X服从下述分布:

X01234p（x）0.10.20.20.20.3设计算法生成样本量为1000、服从上述分布的随机数。

并且比较随机数的观测频率和理论概率值。

3解答：

首先产生均匀分布的随机数RU（O,1）,分布的随机变量可以由下式生成:

00/?

0,110.1R0.3=,20.3R0.530.5R0.740.7R1pl=0.1;p2=0.2;p3=0.2;p4=0.2;p5=0.3;y=NULLset.seed（444）for（iinl:

n）x=runif（l）if（xpl）yi=0if（p1=x&x（p1+p2）yi=lif（p1+p2）=x&x（p1+p2+p3）yi=2if（pl+p2+p3）=x&x（pl+p2+p3+p4）yi=3if（pl+p2+p3+p4）=x）yi=4rcal_p=c（pl,p2,p3,p4,p5）theom_p=c（sum（y=0）,sum（y=l）,sum（y=2）,sum（y=3）,sum（y=4）/nplot（x=seq（0,4）,theom_p）m=t（matrix（c（real_p,theom_p）,ncol=2）m=data.frame（m）row.names（m）=c（,theoryvalue,“realvalue）colnames（m）=c（“0；T2“J3,“4）m4统计计算第二章课后题L设。

L（0,2”）,RExp（）.5）且独立于明若有：

X=yRcosa,Y=Rsina.证明X,Y相互独立且服从N（O,1）分布。

利用以上方法结合随机向量生成方法，设计生成二维标准正态分布的算法。

解答：

因为aU（0,2），Rxp（0.5）且相互独立,则联合密度函数为f（a,r）=e,0a0.4”又因为X=Rcosa,Y=sina从而得到R=X2+Y12.又因为=2,由卷积公式可求得X和丫的联合密度函数为：

1J.f,y）=2x-e-:

+y22111e=-e2兀求边际密度可得：

/（X）=忐e-哆,f（y）=卷e-名由于联合密度函数可以写成边际密度函数乘积，X与丫分别服从N（0,l）分布且相互独立。

-1set.seed（1234）n-1000a-runif（n,0,2*pi）r-rexp（n,0.5）etal-sqrt（r）*cos（a）eta2-sqrt（r）*sin（a）eta-NULL#生成随机数eta0,y0.解答：

二维分布的分布函数为:

尸（x,y）=1-产-e-2y+小9）=q_e-2x）（l-e-2yy）故有：

XExp,yExp

（2）.set.seed（l）n-1000eta-matrix（0,n,2）X-rexp（n,2）Y-rexp（n,2）eta-cbind（X,Y）c（mean（X）,mean（Y）c（var（X）,var（Y）3.分别使用条件分布法和变换抽样法生成1000个随机向量X=（Xi,X2）,并且满足X其中2=tH-O.5（3）解答：

条件分布法：

根据X=（X1,X2）密度函数/8，冷）=f（X2）f（X1x2）,只需要产生密度函数为/（%2）的随机数0以及密度函数为/（X1|X2）的随机数则（1,&）和X=（Xi,X2）同分布。

&和X2同分布，也就是正态分布N（2,8）.而且通过计算不难得到a服从N（1+7-120-22（x2-2），-0-120-22（721）.基于条件分布法得到随机向蔓的随机数算法如下J_set.seed

（1）n-1000xi-matrix（0,n,2）mul=mu2=lsigma1=sigma2=1rho=-0.5sigma12=sigma21=rho*sqrt（sigmal*sigma2）sigmac=sigina1-sigma12*sigma2A（-l）*sigma21fbr（iinl:

n）x2=rnorm（1,mu2,sigma2A0.5）muc=mu1+sigma12*sigma2A（-l）*（x2-mu2）x1=niorm（1,muc,sigmacA0.5）xii,=c（xl,x2）#生成的随机数）etal=xi,1eta2=xi,2c（mcan（cta1）,mcan（cta2）#均值向量matrix（c（var（eta1）,cor（etal,eta2）,cor（etal,eta2）,var（eta2）,2）#协方差矩阵2

（2）变换抽样法:

独立生成随机数1N（0,1）,&N（）,1）,做如下变换Hi=+i必=（V1-P26+两）b2+2,这里P表示Xi,X2的相关系数。

通过推导不难得到（力,必）和（Xi,X2）同分布。

基于变换抽样法得到随机向量算法如下。

set.seed

（1）n-1000mul=mu2=lsigmal=sigma2=lrho=-0.5xil=morm（n,0,l）xi2=morm（n,0J）eta1=sigmaI*xi1+mu1eta2=（sqrt（1-rhoA2）*xi2+rho*xi1）*sigma2+mu2xi=cbind（etal,eta2）#生成的随机数c（mean（eta1）,mean（eta2）#均值向Amatrix（c（var（etaI）,cor（etal,eta2）,cor（etal,eta2）,var（eta2）,2）#协方差矩阵4.生成密度函数如下的三维随机向量:

/（X1,X2,X3）=,Xj+X2+X11.（4）解答：

联合密度函数的上界为:

%=Sup/（X1,X2,X3）=丁，-1X11,-1X21,-1X31舍选抽样法生成随机数，步骤如下：

独立产生服从01区间上的均匀分布的随机数：

Uo,Ui,U2,（h；计算乂1=2小一1,乂2=2。

2-1,乂3=23-1,则%0-1,1,X2-t7-l,l,如果4/（3）Uo=UofoUo/（Xi,X2,X3）=4/（3n）/（X：

+XX梳1）,即X后+X；1,则得到随机向量（Xi,X2,X3）。

set.seed

（1）n=I）ul=nmif（l）u2=runif（l）3u3=runif（l）xl=2*ul-lx2=2*u2-lx3=2*u3-lr=xlA2+x2A2+x3A2）XY-rbind（XY,c（xI,x2,x3）5.设坛子中有n个不同颜色的球，共计r种颜色，其中第i种颜色的球有“个。

从坛子中随机无放回抽取6个球,设随机向量X,表示取出的第i种颜色的球的个数，设计算法模拟（%!

X2,解答：

随机向量（Xi,X.2,X,）的联合分布为:

PXj=Xi,i=1,2,r）XlX2xrJ，J-CfnLnxi=m,工川=n2=11=1条件分布法生成随机数，步骤如下:

产生随机数的超几何分布给定X1,X2,，Xj-i,依次产生随机数X/|X1,X2,，Xj-i,服从参数为（机-储孙nj,n-E*吟的超几何分布设置r=4,（阳,n2,%4）=（6,14,20,10）,n=50,m=5,产生1000组（出,X2,X3,XQ：

-1set.seed（l）#球的总数n-50#抽取个数m-5#4种颜色r-4ni-c（6,14,20,10）x-c（）tx-rep（0,r）fbr（tinl:

1000）tx=rhyper（l,ni1,n-nil,m）w=n-nils=mfor（iin2:

r）w=w-niis=s-txi-ltxi=rhyper（l,nii,w,s）x=rbind（x,tx）4apply（x,2,mean）#期望5*c（6,14,20,10）/50统计计算第三章课后题L设修屏,，X”是来自参数为1的泊松分布总体的一个样本，给出n=500时期望和方差的估计形式，编程实现并重复1000次进行验证。

解答：

对XPoisson的总体期望的样本均值为X=士E；=iX”样本方差为土X）2o样本均值抽样分布的期望为EX=三工葭EXi=乙方差为Var（X）=表匕V（X,）=尖算法过程如下

（1）从Poss,西中随机生成”=500个数据X（D=:

Xu,%,.一,乂“,基于这组数据得到的均值和方差分别记为E（又）和以（元）。

（2）重复K=1000次，相应得到E（和）,E（#2）,，仪又）,以及Var*i）,%1r便2）,Var（X（K）;（3）计算长（幻=：

乎（即）,k=l以及1KVar（X）=-2vr（X（,）.k=lset.seed（0709）K=1000n=500lambda=1resu=matrix（0,nrow=K,ncol=2）fbr（iin1:

K）data=rpois（n,lambda）resui,=c（mean（data）,var（data）c（mean（resu,1）,lambda,mean（resu,2）,lambda）c（var（resu,1）,lambda/n）2.设Xi,X2,，X”独立同分布，且具有密度函数/（x）=（。

+1）炉0xinteriJ）&（pinteri,3）&（pinteri.4）resui,1=x/nminresui,2=sum（data2:

=l）/n_maxinterm-colMeans（inter）cat（小样本点估计均值：

round（mean（resu,l）,3）（n大样本点估计均值：

*oimd（mean（resu,2）,3）,n小样本置信区间：

round（interml,4）round（interm2,4）,n大样本置信区间:

round（interm3,4）,?

round（interm4,4）,n小样本平均长度：

round（mean（intcr,2-inter1）,3）,n大样本平均长度：

round（mcan（intcr,4-inter,3）,3）,n小样本覆盖率:

round（mean（probL1）,3），八n大样本覆盖率:

round（mean（prob,2）,3），sep=）5.考虑泊松分布尸。

心。

（4）,在大样本和小样本的不同情况下，给出参数4的点估计和区间估计，并编程进一步验证。

解答：

（1）点估计：

因为EX=R,所以4的点估计为X。

（2）区间估计：

在小样本情况下，不能用正态近似，4的精确置信区间如下:

=rai（m,n）,Vi-a2（m+1,n）其中加为样本总计数,如+敢=a且0Ws,如W1。

大样本情况下，由中心极限定理知：

y/n.-*N（0,1）,-l-finteri,1）&（lambdainteri,3）&（lambdainteri,4）rcsui,2=mcan（data2）intenn.）/（+m-2）,QX=2（x，一幻之，。

产x（匕-nI2.Imul=0mu2=2n=100m=50sigma=1K=10000res-c（）fbr（iin1:

K）X-rnorm（n,mu1,sigma）Y-rnorm（m,mu2,signia）Sw-（sum（X-mean（X）A2）+sum（Y-mean（Y）A2）/（n+m-2）T=qt（0.975,n+m-2）#取绝对值进行判断result-mean（res）#数值模拟估计的统计功效criti-qt（0.975,n+m-2）;power-2-pt（criti一（mul-mu2）/sqrt（Sw*（l/n+l/m）,m+n-2）-pt（criti+（mul-mu2）/sqrt（Sw*（l/n+1Zm）,m+n-2）#理论统计功效c（result,power）Z=11=1数值计算方法估计功效如下此例子中，理论统计功效和数值模拟的的结果均为1。

2.35位健康男性在未进食前的血糖浓度如下，分别用卡方检验和单样本K-S检验方法来检验这组数据是否来自均值=80、标准差。

=6的正态分布总体，用数值计算方法进行分析。

数据：

6868727575767677777777777778787880808080808081818184848686878790929292解答：

（1）卡方检验：

需要将样本数据进行类别划分。

对于本例35个样本数据，可以划分为4个类别，对于正态分布来说就是划分为4个区间，如果数据落入这4个区间的概率值是相等的，也就是每个区间的概率为1/4=0.25o查标准正态分布表，可得到标准正态分布下划分4个区间的3个临界值点。

相应的可以得出均值为=80、标准差夕=6的三个临界值所对应的X值（区间界限），如下表：

概率值对应z值对应X值0.75-0.6775.980.500.0080.000.250.6784.020.00正无穷正无穷根据计算的区间界限，将样本数据的每一个数据都分配到对应的区间中，统计实际频数。

最后由实际频数与期望频数的差值计算卡方统计量，计算过程如下表：

划分区间Oi实际频数Ei期望频数（Oi-Ei）2/Ei75.98以下58.751.60714375.98-80.00118.750.578571480.00-84.02118.750.578571484.02以上88.750.06428571合计35352.828572根据卡方检验内容可知该统计量服从自由度为的卡方分布。

本例中，划分了4个区间k=4,自由度为4-1=3。

查卡方分布表（单侧显著水平0.05,自由度为3）得卡方值为。

因为计算卡方统计量为2.8297.815,落在接受域，所以接受原假设，拒绝备择假设，即观测数据可以认为服从正态分布。

（2）单样本K-S检验的算法如下n=35data2=c（68,68,72,75,75,76,76,77,77,77,77,77,77,78,78,78,80,80,80,80,80,80,81,81,81,84,84,86,86,87,87,90,92,92,92）data2-sort（data2）Dsplus-max（abs（c（l:

n）/n-pnonn（data2,mean=80,sd=6）Dminussd=6）2statImax（D_splus,D_minus）c（statl,0.22424）由于0.148小于临界值0.224,不拒绝原假设，则认为样本服从均值为80,标准差为6的正态分布，与卡方检验的结果一致。

3.设Xi,X2,Xn和Ki,Y2,分别是来自总体-+1）和U（02,+1）的两个独立样本，检验原假设和备择假设分别为：

“：

仇=。

2,4：

01大出。

取n=30,m=50A=0,02=0.5分别用曼-惠特尼U检验和两样本游程检验方法分析上述假设检验问题，并采用数值计算方法估计功效。

解答：

（1）曼-惠特尼U检验数值分析如下set.seed（422）n=30m=50theta1=0theta2=0.5K=1000resu=NULLfbr（iin1:

K）X_dala-runif（n,theta1,theta1+1）Y_data1,96）mean（resu）数值模拟结果是1,曼-惠特尼U检验具有良好的检验功效。

（2）两样本游程检验数值分析如下#同分布检验-Wald-Wolfowitz游程检验set.seed（422）n=30m=50N=m+ntheta1=0theta2=0.5K=10003resl=NULLfbr（iin1:

K）X_data-runif（n,theta1,thetal+1）Y_data-runif（m,theta2,theta2+1）#原假设thetal=theta2Data=c（X_data,Y_data）Runs=as.numeric（order（Data）=1.96）mcan（resl）i两样本游程检验的数值检验功效为0.995o4.设Xi,X2,X”和匕,力,Yni分别是来自总体X和Y的两个独立样本,X和Y的分布函数分别为F（x）和G（y），检验的原假设和备择假设分别为：

为:

E（x）=G（y）,“i:

F（x），G（y）取?

=50,”=30,XN（）,1）,/N（）,2）,两样本K-S检验构造检验统计量，并采用数值计算方法估计检验统计量的功效。

解答：

两样本K-S检验数值算法如下#同分布检验-K-S检验（柯氏检验）set.seed（422）m=50n=30N=m+nstatl=NULLresl=NULLres2=NULLfbr（iin1:

1000）#创建数据X_data-rnonn（n,0,1）Y_data-rnorm（m,0,sqrt

（2）#计算每个Xi,Yi的经验分布F_nx-（matrix（1,n,l）%*%X_data）=（X_data%*%matrix（l,1,n）;F_nxF_nx-1;Fnx-rowMeans（F_nx）4F_ny-（matrix（1,m,1）%*%X_data）=（Y_data%*%matrix（1,1,n）;F_nyF_ny-l;F_ny-rowMeans（F_ny）Grnx-（matrix（1,n,1）%*%Y_data）=（X_data%*%matrix（1,1,m）;G_mxG_mx-1;G_mx-rowMcans（G_mx）G_my-（matrix（1,m,1）%*%Y_data）=（Y_data%*%matrix（1,1,m）;G_myG_my-1;G_my=1.36*sqrt（N/（m*n）#确定临界值index=scq（1,10000,1）pval=2*sum（-1）A（index-1）*exp（-2*m*n*indexA2*stat1A2/N）res2i=as.numcric（p_val0.05）#判断P值是否小于犯一类错误的概率）c（mean（res1）,mean（res2）5.分类变量X和Y分别有r和c种可能性，分别记为X=1,2,r）以及V=/（/=l,2,.,c）.将同时满足X=i（i=l,2,.,r）和丫=j（J=l,2,.,c）的样本观测频数记为固定r,c,利用列联分析方法检验X和Y是否独立，并用数值分析方法计算检验的功效。

解答:

Y1Y2Yc合计XInilnl2nlcnl.X2n21n22n2cn2.:

Xrnrlnr2nrcnr.合计对书上P66的具体问题进行复现与代码注释：

取样本量=100,假设数据（为,匕）,（x2,%）,（X”,乙）服从二元正态分布，x和y的均值均为0,方差都为1,相关系数为0.6+0.04*p,P为1到10的整数。

将两组数据划分为k=8个区间，计算检验的功效。

#独立检验列联表检验library（MASS）set.seed（422）efficacy4-c（）fbr（pin1:

10）k=8n=100Sigma=matrix（c（1,0.6+0.04*p,0.6+0.04*p,l）,2,2）resl=NULLfbr（iin1:

1000）5data=mvmorm（n,rep（0,2）,Sigma）#dala自动生成两列数据X_data=data,1#将第一列赋值给XY_data=data,2#将第二列赋值给YSx=sort（Xdata）#排序后方便后续纵向比较Sy=sort（Ydata）#根据每组数据极值划分区间interx=seq（min（Xdata）,max（Xdata）,by=（max（X_data）-min（Xdata）/k）inter_y=seq（min（Y_data）,max（Y_data）,by=（max（Y_data）-min（Y_data）/k）#构造X的区间left_inter_x=rcp（l,n）%*%t（inter_xl:

k）right_inter_x=rep（1,n）%*%t（inter_x2:

（k+1）#构造Y的区间left_inter_y=rep（1,n）