ST4.docx
- 文档编号:3427607
- 上传时间:2022-11-23
- 格式:DOCX
- 页数:21
- 大小:124.20KB
ST4.docx
《ST4.docx》由会员分享,可在线阅读,更多相关《ST4.docx(21页珍藏版)》请在冰豆网上搜索。
ST4
授課目錄
第1章導論
第2章統計資料的整理與描述
第3章機率導論
第4章常用的機率分佈與統計分佈
第5章描樣方法與描樣分佈
第6章統計估計
第7章統計檢定
第8章變異數分析
第9章相關分析與迴歸模式
第10章無母數統計檢定
第11章類別資料分析---列聯表與卡方檢定
第四章常用的機率分佈與統計分佈
一組樣本資料常呈現某種特殊型式的機率分配。
當獲得母體的樣本資料時,須從各種機率分佈當中,選擇出最接近該母體的機率分佈,使樣本資料與母體參數有最佳的推論與檢定能力。
常用的機率分佈有:
離散型與連續型二大類。
4.1離散型機率分佈
離散型機率分佈(p)---常見有二項分佈、卜氏分佈、離散型均勻分佈、超幾何分佈。
若一隨機實驗只有成功和失敗兩種結果,事件成功發生的機率為p,事件失敗發生的機率為1-p。
令隨機變數x=1代表成功的事件,x=0代表失敗的事件,此稱隨機變數X服從白努利分佈(BernoulliDistribution)。
x
1
0
P(x)
p
1-p
E[X]
1p
0(1-p)
V[X]=E[X2]-(E[X])2
p(1-p)
p(x)=P(X=x)=px(1-p)1-x
(1)二項分佈(Binomial)---執行n次白努利隨機試驗,事件成功發生的機率為p,事件失敗發生的機率為1-p。
通常以隨機變數X~B(n,p)表示。
其機率密度函數與累積分佈函數為:
p(x)=C(n,x)px(1-p)n-xx=0,1,…,n(4.1)
F(x)=xk=0C(n,k)pk(1-p)n-k(4.2)
其期望值與變異數為:
E[X]=npV[X]=np(1-p)
◎二項式分佈當n很大或p接近0.5時呈常態分佈,
◎np接近1PeakOut,p0.5右偏,p0.5左偏
Excel:
pp.99-100,BernoulliDistribution
pp.101-110,BinomialDistribution
範例、致遠管理學院約有40%的學生喜歡打籃球,茲隨機機訪問1個學生,試問(a)此學生喜歡打籃球的期望值與變異數?
(b)隨機機訪問5個學生,此5個均喜歡打籃球的期望值與變異數?
有2個均喜歡打籃球的期望值與變異數?
至少有3個喜歡打籃球的期望值與變異數?
SOL:
公式、查表、Excel(binomdist(x,n,p,true))
(a)令隨機變數X代表喜歡棒與否,則(注意:
N/Y)
E[X]=p=0.4V[X]=p(1-p)=0.24
(b)令隨機變數X代表喜歡棒的人數,則(注意:
人數)
E[X]=np=5*0.4=2V[X]=np(1-p)=1.2
P(X=2)=C(5,2)(0.4)2(0.6)3=0.346
/binomdist(2,5,0.4,false)/
P(X3)=1-P(X2)=0.317
/1-binomdist(2,5,0.4,true)/
範例、工管系期末考統計學出20題選擇題(4選1),每題5分。
某學生採完全以猜的方式作答,試問(a)此學生答對數的期望值與變異數?
(b)此學生期末考統計學分數的期望值與變異數?
(c)此學生考及格的機率?
(d)此學生最多考40分的機率?
SOL:
公式、查表、Excel
(a)令隨機變數X代表此學生答對題數,則(注意:
題數)
E[X]=np=20*1/4=5V[X]=np(1-p)=3.75
(b)分數期望值(注意:
分數)
E[5X]=5E[X]=25V[5X]=25*3.75=93.75
(c)此學生須答對12題以上才能及格,因此,
P(X12)=1-P(X<12)=0.0009
/1-binomdist(11,20,0.25,true)/
(d)P(X8)=0.9591
/binomdist(8,20,0.25,true)/
(2)卜氏分佈(Poisson)---在一個單位時段或區域內,某事件發生的次數。
通常以隨機變數X~Poi()表示。
其機率密度函數與累積分配函數為:
p(x)=e-x/x!
x=0,1,…(4.3)
F(x)=xk=0e-k/k!
(4.4)
其期望值與變異數為:
E[X]=V[X]=
離散型隨機變數X具有卜氏分配時,有下列特性
(a)每一個時段或區域內事件的發生皆是相互獨立。
(b)在一固定時段內,事件發生的機率p均相同。
(c)卜氏分配可由n很大時的二項分配逼近
limxC(n,x)px(1-p)n-x=e-x/x!
範例、6月至9月為台灣颱風季節,中央氣象局統計資料指出,台灣每年有5個颱風過境,(a)今年台灣沒有颱風過境之機率?
(b)將有5個颱風過境之機率?
(c)超過7個以上颱風過境之機率?
SOL:
公式、查表、Excel
令隨機變數X代表每年颱風過境台灣次數,則
X~Poi()X~Poi(5)
P(x=0)=e-x/x!
=0.0067
/=poisson(0,5,false)/
P(x=5)=e-x/x!
=0.1755
/=poisson(5,5,false)/
P(x7)=1-P(X6)=0.2378
/1-poisson(6,5,true)/
範例、青輔會資料顯示,台灣大約有2%的成年人具有碩士以上的學歷。
茲由全台成年人中,隨機抽取100人,其中洽3人具有碩士以上的學歷之機率?
SOL:
公式、查表、Excel(比較二項與卜氏分配)
令隨機變數X代表擁有碩士以上學歷人數,則依二項分配的定義,X~B(100,0.02),即
P(x=3)=C(100,3)(0.02)3(0.98)97=0.1823
/=binomdist(3,100,0.02,false)/
若依卜氏分配,X~Poi(),=np=2,X~Poi
(2)
P(x=3)=e-x/x!
=0.1804
/=poisson(3,0.02,false)/
(3)離散型均勻分配(DiscreteUniform)---樣本空間有N個相異的元素,{1,2,3,…,N}。
且此N個元素被抽中的機會皆均等。
通常以隨機變數X~DU(N)表示。
其機率密度函數與累積分配函數為:
p(x)=1/Nx=1,2,…,N(4.5)
F(x)=x/Nx=1,2,…,N(4.6)
其期望值與變異數為:
E[X]=(N+1)/2V[X]=(N2-1)/12
範例、擲骰子1次,則擲出點數(X)的期望值與變異數?
x
1
2
3
4
5
6
P(x)
1/6
1/6
1/6
1/6
1/6
1/6
p(x)
1/6
E[X]
1/6
2/6
3/6
4/6
5/6
6/6
7/2
V[X]
E[X2]-(E[X])2=91/6–49/4=35/12
(4)超幾何分配(Hypergeometric)---若母體內含有N個元素,此N個元素分成兩類,其中具某種特性者屬一類共有M個,另外N-M個不具某種特性,屬另一類。
通常以隨機變數X~HG(N,M,n)表示。
其機率密度函數為:
p(x)=C(M,x)C(N-M,n-x)/C(N,n)x=0,1,…,n
or
p(x)=C(np,x)C(N-np,n-x)/C(N,n)
p=M/N=constant(4.7)
其期望值與變異數為:
E[X]=n(M/N)V[X]=n(M/N)(1-M/N)[(N-n)/(N-1)]
在二項分配中,每一次的試驗都是互相獨立的,而超幾何分配則互相影響。
即二項分配是『歸還』特性;超幾何分配是『不歸還』特性。
※如無限的母體,即N時,超幾何分配可視為二項分配。
因為母體相當大,隨機抽取有限個樣本,並不足以影響母體。
limxC(M,x)C(N-M,n-x)/C(N,n)=C(n,x)px(1-p)n-x
wherep=M/N=constant
二項分配使用時機:
卜氏分配使用時機:
(1)N/n10
(1)N/n10
(2)p=const.
(2)n16
(3)p0.1
不屬上述條件者,則使用超幾何機率分配。
範例、工管系欲選派4位學生參加統計學校外競賽。
茲有20位實力相當學生報名,其中男生有5位、女生有15位。
最後決定以抽籤方式選取,試問選派4位參加統計學校外競賽者中,抽出2位男生之機率?
(a)採取出放回(b)採取出不放回。
SOL:
公式、查表、Excel(比較二項與超幾何分配)
令隨機變數X代表抽出4位參賽者中男生之個數,則
(a)取出放回,依二項分配的定義,X~B(100,0.02),即
P(x=2)=C(4,2)(0.25)2(0.75)2=0.2109
/=binomdist(2,4,0.25,false)/
(b)取出不放回,X~HG(N,M,n)=H(20,5,4)
P(x=2)=0.2167
/=hypgeomdist(2,4,5,20)/
/=hypgeomdist(x,n,M,N)//=binomdist(x,n,p,false)/
/=poisson(x,np,false)/
4.2連續型機率分配---常見有:
(1)連續型均勻分配(ContinuousUniform)
在隨機變數X所屬的區域內,機率值是均勻分配的(固定值)。
通常以X~U(a,b)表示。
其機率密度函數與累積分配函數為:
f(x)=1/(b-a),x(a,b)(4.8)
=0,Otherwise
F(x)=(x-a)/(b-a),x(a,b)(4.9)
其期望值與變異數為:
E[X]=(a+b)/2V[X]=(b-a)2/12
範例、隨機變數X代表致遠站---台南站間隔發車時間,滿足X~U(3,7)。
求f(x)、F(x)、E[X]與V[X]?
SOL:
(a)f(x)=1/4;F(x)=(x-3)/4
(b)E[X]=5;V[X]=4/3
(2)指數分配(Exponential)
主要用於間隔或等待時間。
通常以隨機變數X~Exp()表示。
其中為事件發生的平均時間。
其機率密度函數與累積分配函數為:
f(x)=e-x//,x>0(4.10)
F(x)=1-e-x/(4.11)
其期望值與變異數為:
E[X]=V[X]=2
範例、工管系舉行迎新烤肉活動,地點是曾文水庫。
歸來時大家快樂的走到候車亭等往麻豆的台南客運。
不巧,同學們剛到候車亭時,車子正好剛開走。
康樂股長看看站牌上寫著:
往麻豆班車平均每20分鐘開一班。
(a)同學們最多再等10分鐘之機率?
(b)超過30分鐘之機率?
SOL:
公式、查表、Excel
令隨機變數X代表台南客運到達時間間距,
X~Exp()=Exp(20),則
(a)F(x)=P(x10)=0.39
/=expondist(10,1/20,true)/
(b)P(x>30)=0.2231
/=1-expondist(30,1/20,true)/
(3)常態分配(Normal)
應用最廣的機率分配,其貼切地模式化或描述很多自然現象或社會科學實例。
通常以隨機變數X~N(,2)表示。
其機率密度函數與累積分配函數為:
-,0(4.12)
(4.13)
其期望值與變異數為:
E[X]=V[X]=2
常態分配具有以下各項特性:
(a)是一以平均值為中心線,呈左右對稱鐘狀圖形的分配。
愈大,分配偏離中心愈遠,曲線圖愈平緩。
(b)母體的平均值、眾數、中位數均相同值。
(c)機率分配函數圖形向曲線中心的兩端延伸,該漸趨近橫軸(即機率函數值遞減)。
※通常將其X~N(,2)標準化。
標準化過程是令
Z=(X-)/則Z~N(0,1),又稱Z分配。
標準常態機率密度函數
-x(4.14)
標準常態分配之期望值與變異數為:
E[X]=0,V[X]=1
範例、工管系期末考統計學成績,經整理得知具有N(50,16),試問成績於50~60的人數,大概佔所有參加考試人數的比例為多少?
公式、查表、Excel
SOL:
令隨機變數X代表考試成績,其具有N(50,16),則
P(50X60)=P[(50-50)/4(x-50)/4(60-50)/4]=0.494
/=normdist(60,50,4,true)-normdist(50,50,4,true)/
範例、工管系某品管實驗,經整理資料得知具有N(0.3,0.012),老師規定此實驗規格應為0.30.02之間才合格。
試問此實驗不合格的比率有多少?
SOL:
公式、查表、Excel
令隨機變數X代表實驗資料,其具有N(0.3,0.012),則
P(0.28x0.32)=
P[(0.28-0.3)/0.01(x-0.3)/0.01(0.32-0.3)/0.01]=0.9544
/=normdist(0.32,0.3,0.01,true)-normdist(0.28,0.3,0.01,true)/
(4)伽瑪分配GammaDistribution
如隨機變數X,具有以下的機率密度函數,則該分配稱之為伽瑪分配:
(4.15)
其中、是伽瑪分配的參數,其值均大於0。
Wherethegammafunctionisdefinedas:
伽瑪函數將被運用到數個統計量分配---Chi-Square,t,FDistribution。
4.3常用的統計分配
如何將樣本資料{x1,x2,…,xn}推估母體參數(,2),此種由抽樣資料推論母體的長像,統計上稱為統計推論。
為了推論母體所服從的機率分配,即推論該機率分配的母體(,2)。
從母體中抽取數個樣本,利用這些樣本組成所謂的樣本統計量,而樣本統計量所服從的機率分配則稱之為統計分配,亦稱抽樣分配(SamplingDistribution)。
常用的統計分配有常態分配,t分配,卡方分配,F分配等。
統計推論的目的係利用樣本裏的資訊對母體作結論,所採之方法為隨機樣本,即倘母體有N個元素而抽出n個樣本,所有的C(N,n)個可能樣本中的每一個被選中的機率均相等,亦稱隨機抽樣(RandomSampling)。
樣本統計量:
◎集中趨勢統計量---平均數。
◎離散趨勢統計量---變異數與標準差等。
=(x1+x2+…+xn)/n=(ni=1xi)/n
S2=[ni=1(xi-
)2]/(n-1),([ni=1(xi-
)2]:
SumSquare)
常用統計分配:
(1)常態分配
上述已定義過常態分配,主要是用來說明隨機變數的分佈狀況。
而在統計應用上,常態分配是用來推論與檢定母體的特徵值。
如,以樣本平均值
去推論,『其中
的統計分配即常態分配』。
大數法則
從同一母體隨機抽取出n個樣本,當n很大時,則由樣本算出的樣本平均值會接近母體平均數,即
(n)(E[
]=)
中央極限定理
19世紀法國學數家PierreSimondeLaplace(1749-1827)所提出。
他是從觀察到『量測誤差有常態分配的趨向』而得到此定理。
『樣本平均數大都趨近於常態分配』。
中央極限定理的精神:
從『任何以期望值,變異數2的母體中』,隨機抽出n個樣本{x1,x2,…,xn}且x=x1+x2+…+xn,則樣本平均值
將會趨近於標準常態分配。
(4.16)
其中/n1/2稱之為標準誤(StandardError);2/n變異誤(ErrorVariance)。
範例、致遠管理學院女學生平均身高為160cm,標準差為9cm;茲隨機抽取36位女學生,試問平均身高大於160cm而小於162cm的機率有多少?
公式、查表、Excel
SOL:
令隨機變數
代表隨機抽取36位的平均身高,即
=160,/n1/2=9/(36)1/2=1.5,則
P(160
162)=
P[(160-160)/1.5(
-160)/1.5(162-160)/1.5]=0.4082
/=normdist(162,160,1.5,true)-normdist(160,160,1.5,true)/
範例、致遠管理學院學生選修『科技與人生』人數服從二項分配B(n,p=0.07),為了避免選修該課程的人數過多,影響教學品質,倘選修的人數超過80人則開2班上課。
試問本學期有1000人可選此門課,則此門課開2班上課的機率有多少?
公式、查表、Excel
SOL:
令隨機變數X代表選修該課程的學生人數,則
P(X80)=1-binomdist(79,1000,0.07,true)=0.1207
另應用中央極限定理,因E[X]=np=70、V[X]=np(1-p)=65.1,則
P(X80)=P[(X-70)/(65.1)1/2(80-70)/(65.1)1/2]=0.1075
(2)卡方分配(Chi-Square)
一個可用『常態隨機變數』來定義的重要的抽樣分配就是卡方分配
(2)。
倘z1,z2,…,zk為k個獨立且相同分配的常態隨機變數,期望值0且變異數1,簡記為NID(0,1)(NormallyandIndependentlyDistribution),隨機變數x=z12+z22+…+zk2,即會依循自由度為k的卡方分配,其機率密度函數。
通常以隨機變數X~2k表示。
卡方機率密度函數
,0x(4.17)
Thegammafunctionisdefinedas:
其期望值與變異數為:
E[X]=kV[X]=2k
卡方分配是不對稱的統計分配,其對應的機率分配隨著自由度k而有所不同。
假設{x1,x2,…,xn}是一個來自N(,2)分配的隨機樣本。
則其平方和除以2後就依循卡方分配。
SS/2=[ni=1(xi-
)2]/2=2n-1另
S2=[ni=1(xi-
)2]/(n-1)=SS/(n-1)=[2/(n-1)]2n-1
S2的分配為[2/(n-1)]2n-1。
故樣本變異數的抽樣分配為一個常數乘以卡方分配。
[如下圖,卡方分配(k=1,5,15)]
假設隨機變數X~2n-1,定義2,n-1為自由度(n-1)之卡方分配其右邊(累積)機率等於的臨界值,即P(X2n-1)=,則
P(X21-/2,n-1)=1-/2,
及P(21-/2,n-1X2/2,n-1)=1-
=0.1,/2=0.05,2/2=20.05,21-/2=20.95
倘P(X21-/2,n-1)=1-/2,P(1-/2,n-12X/2,n-12)=1-
請查表20.975,4,20.95,13,20.01,4,20.10,13。
/=chiinv(0.975,4)/,/=chiinv(0.95,13)/
/=chiinv(0.01,4)/,/=chiinv(0.10,13)/
20.1,6=10.644620.05,10=18.3070
(3)t分配(Student)
倘z與2k分別為獨立標準常態NID(0,1)與卡方分配,則隨機變數
tk=z/(2k/k)1/2(4.18)
依循k個自由度的t分配,通常以t~tk表示。
t機率密度函數
,-x(4.19)
其期望值與變異數為:
E[X]=0,V[X]=k/(k-2)
t分配與標準常態分配類似,其對應的機率分配皆對稱於原點,尤其當樣本數n愈大時,t分配機率分配情形愈趨近於標準常態分配。
假設{x1,x2,…,xn}是一個來自N(,2)分配的隨機樣本,則
~tn-1(4.20)
t分配最早由W.S.Gosset所發現,因故用Student的筆名發表,又稱Student的t分配。
[如下圖,t分配(k=1,10,100)]
假設隨機變數X~tn-1,定義tn-1為自由度(n-1)之t分配其右邊(累積)機率等於的臨界值,即P(Xtn-1)=,則
P(Xt/2,n-1)=/2,
及P(-t/2,n-1Xt/2,n-1)=1-
=0.1,/2=0.05,t/2=t0.05=-t0.05,
倘P(Xt/2,n-1)=/2,P(-t/2,n-1Xt/2,n-1)=1-
請查表t0.1,4,t0.05,13,t0.01,4,t0.025,13。
/=tinv(0.1*2,4)/,/=tinv(0.05*2,13)/
/=tinv(0.01*2,4)/,/=tinv(0.025*2,13)/
/t0.1,5=1.476/,/t0.05,10=1.812/
(4)F分配
倘2u與2v分別為二個獨立卡方分配,則隨機變數
Fu,v=(2u/u)/(2v/v)(4.21)
依循分子u個自由度、分母v個自由度的F分配,通常以F~Fu,v表示。
F機率密度函數
,0x(4.22)
其期望值與變異數為:
2v2(u+v-2)/[u(v-2)2(v-4)]
E[X]=u/(v-2),v>2;V[X]=2v2(u+v-2)/[u(v-2)2(v-4)]
假設分別來自二個不同母體的隨機樣本,各取樣本n1,n2,其各別樣本變異為S21與S22則
[如下圖,F分配(u=4,v=10,30;u=10,v=10,30)]
假設隨機變數X~
,定義
為自由度(n1-1,n2-1)之F分配其右邊(累積)機率等於的臨界值,即P(X
)=,則
P(X
)=,另
請查表F0.1,4,10,F0.9,10,4,F0.025,4,10,F0.975,10,4。
/=finv(0.1,4,10)/,/=finv(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- ST4