抽样与抽样分配.pptx
- 文档编号:30846397
- 上传时间:2024-02-03
- 格式:PPTX
- 页数:77
- 大小:1.21MB
抽样与抽样分配.pptx
《抽样与抽样分配.pptx》由会员分享,可在线阅读,更多相关《抽样与抽样分配.pptx(77页珍藏版)》请在冰豆网上搜索。
第七章抽樣與抽樣分配所謂的抽樣,是指從一個母體中抽出一組樣本,利用此樣本來推估母體特性的一種方法或程序,而我們所抽出的樣本是否能夠具體的代表整個母體,與我們所使用的抽樣方法有關。
一般而言,抽樣的方法可以分為兩種,一種是隨機抽樣,另一種則是非隨機抽樣。
由隨機抽樣所抽出的樣本都具有隨機性,亦即每組樣本被抽出的機率皆相同,而且所抽出的樣本是互相獨立的;至於非隨機抽樣則沒有這個特性。
在此我們僅介紹隨機抽樣的部分。
隨機抽樣所抽出的樣本,稱之為隨機樣本。
常見的隨機抽樣方法有簡單隨機抽樣法(SimpleRandomSampling)、分層隨機抽樣法(StratifiedRandomSampling)、部落抽樣法(ClusterSampling)以及系統抽樣法(SystematicSampling)。
7.1常的抽方法見樣在這一節中我們所討論的是隨機性的抽樣法,常見的有以下四種:
簡單隨機抽樣、分層隨機抽樣、部落抽樣以及系統抽樣,以下便將這四種方法加以說明。
7.1.1抽法簡單隨機樣設從含有N個元素的母體中,隨機抽取個為一組樣本,而每一個樣本被抽出的機會均相同,此種抽樣的方法,稱之為簡單隨機抽樣法;而按此種方法所抽出的樣本,則稱之為簡單隨機抽樣樣本。
在採用此種抽樣方法時,依其抽取的樣本放回或不放回,又可分為抽樣放回(samplingwithreplacement)與抽樣不放回(samplingwithoutreplacement)兩種。
這兩者在抽樣的時候,樣本出現的機率並不相同。
當我們採取抽樣放回的方式時,每組樣本出現的機率為,而當我們採用抽樣不放回的方式時,其每組樣本出現的機率則為,然而當母體相當大的時候,兩者均可視為獨立的狀況,也就是說不管樣本放回或是不放回,對於下一次抽取並不會造成影響。
nN1NnC17.1.2分抽法層隨機樣分層隨機抽樣法就是指將整個母體分成若干個不重疊之部份母體,此部份母體稱之為層,每個層與層之間互相排斥。
例如將班上個同學的身高依160公分以下、160170公分、170公分以上三種層次分為三個不同的部份母體,而每個母體的個數分別為、與,然後在每一層中各別抽取一簡單隨機樣本,其樣本數分別為、與。
若將各層的樣本數加總起來,便為總樣本。
由上述的例子,我們不難看出層內的變異較小,而層與層之間的變異則較大。
然而當我們在採用分層隨機抽樣法時,要如何來決定每一層內到底要抽出幾個樣本呢?
一般而言,最常用的方法是比例配置法,以下便加以說明。
【例7.1】某個研究機構想要研究大學教育的問題,於是想要在台灣地區以隨機抽樣法選取1200名大學生作為樣本。
倘若已知全省大學各年級之總人數及其學業平均成績的資料如下表所示:
試問倘若以分層比例抽樣法來選取樣本,則各年級應該抽取多少名學生?
解:
首先我們先求出台灣地區大學生之總個數NN=25,000+21,000+18,000+16,000=80,000令n1,n2,n3與n4分別表示依分層比例抽樣法所應該抽取之大一、大二、大三與大四的學生人數。
則根據(7.1)式我們可以求出因此,倘若以分層比例抽樣法來選取樣本時,則應該選取大一的學生375位,大二的學生315位,大三的學生270位以及大四的學生240位。
375800002500012001n31580000210001200n27080000180001200n24080000160001200n7.1.3部落抽法樣部落抽樣法是將整個母體依其標準分成若干個部落(部落內的每個元素彼此間的差異較大,而部落與部落間的差異較小),然後任取數個部落為隨機樣本,而被抽中之部落內的每個元素皆為調查的對象。
例如人口調查,以家庭為抽樣單位,被選中的家庭其全部成員皆必須接受調查。
採用部落抽樣法的誤差通常較大,然而因為可以就近集中調查,可因此而省下不少的時間與調查費用,故此種抽樣法還是有其可用之處。
部落抽樣法與分層抽樣法看似相同,然而實際上,兩者卻有很大的不同之處,茲將這兩種抽樣方法的差異列表如下:
7.1.4系抽法統樣將母體所有的元素依次排列,然後將其分成數個間隔,每隔若干元素抽取一個,此種抽樣方法稱之為系統抽樣法。
此種抽樣方法的優點便是在使用時非常方便,只需隨機選取出第一個元素之後,每隔若干個單位之後再抽取一個元素,以此類推,其餘的樣本元素便能夠決定出來,一直到抽取了所需的樣本個數為止。
然而採用此種抽樣方法時,其所使用的資料應該避免有週期性的現象,否則將會造成嚴重的偏差。
例如在探討冷氣機平均每月的銷售數量時,倘若每隔12個月抽取一個元素,則所得到的資料都是同一月份的資料,將無法提供充分的情報,因此在採用此方法時必須加以注意。
以下便將此系統抽樣法的步驟加以說明:
(1)首先先將所有的N個母體元素依序排列。
(2)依次將母體劃分為n個相等大小的區間,每一區間內的元素個數為(若k為非整數,則取最接近的整數來代替)。
(3)採用簡單隨機的抽樣方法從第一個區間的k個元素中,抽出一個元素,作為起始點。
(4)由起始點算起,每隔k個單位抽取一個元素,即為樣本元素,共取n個元素合成一組樣本。
nNk7.2抽分配樣統計量乃為樣本內隨機變數的實數值函數,但此實數值函數不包含未知參數。
統計量本身亦為一隨機變數並以大寫字母表示,如樣本平均數,樣本變異數,而以小寫字母表示統計量的計算值或觀察值,如樣本平均數,樣本變異數。
舉個例子來說,假若我們從一母體中隨機抽出一組樣本,則像等皆為樣本內隨機變數的實數值函數,但這些實數值函數不包含未知參數,這些皆可稱之為統計量。
X2Sx2s),(21nXXX32211XXY),min(212nXXXYnnXnXXXY41)2(2411213但隨機變數並不是統計量,因包含未知參數。
當我們在作資料分析時,主要的目的便是利用統計量來推估母體的某些數值特徵,這些母體的數值特徵稱為母體參數。
一般在統計學上較常使用到的統計量包含有樣本平均數、樣本變異數、樣本比例等。
為了要充分地利用樣本統計量來對母體的參數作估計,我們必須對每一種可能的樣本作探討。
倘若我們將所有可能的樣本組合都考慮進去,那麼統計量的機率分配便稱為抽樣分配。
1XU與X2Sp7.2.1本平均的抽分配樣數樣倘若我們從一個平均數為,標準差為的母體中,隨機抽出一組樣本,那麼樣本平均數則為樣本平均數的抽樣分配之期望值與變異數如下:
期望值變異數XXnX,X,X21XnXnXXXXniin121)(XnXV2)(nnXXXnnXXXX21211nXXXn211nn1nnXXXVnnXXXVXV212211nXVXVXVn2121nnn222【例7.2】設一個母體,其元素包含1、2、3、4、5共N=5個數值,若從此一母體中抽出n=2個為一組隨機樣本。
倘若採用抽取後放回的方式,試求樣本平均數的抽樣分配,平均數與變異數。
解:
首先可以由題意求出母體平均數與母體變異數母體平均數母體變異數3554321xxpX52221()()()()5iixVXxpxmsm=-=-=25)35()32()31(222若從此一無限母體中抽取n=2個為一組隨機樣本,則所有可能的不同樣本組合列表如下:
編號樣本編號樣本編號樣本1(1,1)111(3,1)221(5,1)32(1,2)1.512(3,2)2.522(5,2)3.53(1,3)213(3,3)323(5,3)44(1,4)2.514(3,4)3.524(5,4)4.55(1,5)315(3,5)425(5,5)56(2,1)1.516(4,1)2.57(2,2)217(4,2)38(2,3)2.518(4,3)3.59(2,4)319(4,4)410(2,5)3.520(4,5)4.5xxx由上表可知,的可能組合有25種,而每一種組合的機率皆為,所以的抽樣分配為11.522.533.544.55從的抽樣分配表中可以計算出的平均數與變異數x)(xf251252253254255254253252251X2X3257525152525.12511)()(91iiiXxfxX29122)()(XxfxiiiX2222325152525.125111910由以上所得到的結果可知,所有可能組合之樣本平均數的期望值與母體平均數相等(),而樣本平均數的變異數等於母體變異數除以n的值()。
而對所有的有限母體且抽出後不放回,使用簡單隨機抽樣,則樣本平均數的抽樣分配之期望值與變異數:
期望值變異數(7.4)(X1)(2NnNnXV3X22122Xn上述定理中是在有限母體且抽出的元素不放回母體中的情況。
而式子中則稱為有限母體校正因子(f.p.c),在此將一些有限母體校正因子的特性加以說明:
1.由於樣本數固定,所以當母體數愈大時,愈接近於1。
2.若樣本數與母體數N的比例相當小時,則可以將之視為無限母體;一般而言,當時,便可將有限母體校正因子省略。
3.當樣本數接近於母體數N時,有限母體校正因子便趨近於0,亦即表示也將趨近於0。
1NnNn1NnN05.0Nnn一般來說,當我們在考慮樣本平均數之抽樣分配的型態時,樣本大小以及母體本身的分配型態都會影響此統計量之抽樣分配。
當這些因素處於不同的情況之下,則的抽樣分配將會有所差異,以下便加以探討在不同的特性因素下,抽樣分配所呈現的各種型態。
XXX自常態分配母體中抽樣時:
自非常態分配母體中抽樣時:
【例7.4】一個常態分配母體其平均數80而變異數16,若從此一母體中隨機抽取出樣本大小為100的隨機樣本,其樣本平均數用來估計母體平均數。
試求之期望值與標準差為何?
並且說明的抽樣分配。
解:
由題意我們可以得知,母體平均數80,母體變異數16而樣本大小n=100,且母體本身為常態分配,因此其樣本平均數的期望值與標準差分別為而之抽樣分配則是平均數為80,標準差為0.4的常態分配。
2X80)(X401004.nX7.2.2中央限定理極(CentralLimitTheorem;C.L.T)中央極限定理在統計學中相當地重要,該定理是指從一個具有平均數與變異數的母體中抽取樣本數為的一組隨機樣本,其樣本平均數為,則當n趨近無限大時時,的分配趨近於標準常態分配。
因此,當我們不知母體的分配型態,或是母體本身並非常態分配,只要樣本個數夠大,我們均可以將其樣本平均數之抽樣分配視為常態分配,並且我們也可以利用此定理來求有關樣本平均數的某些機率。
nX【例7.6】一個在全省各地開了三千家分店的大企業,想要抽樣估計去年每家分店發生物品損壞的平均損失金額。
假設母體平均數元,而母體標準差元,試求(a)倘若抽取n=100家分店當成隨機樣本,則樣本平均數與母體平均數之差在60元以內的機率是多少?
(b)倘若將抽取的分店家數增加到n=256家,則樣本平均數與母體平均數之差在60元以內的機率又是多少?
解:
由題意可以得知,母體平均數與標準差分別為與,令X代表該企業的去年的損失金額,則XN(1630,)。
16304001630400(a)由於母體總數N=3000,而樣本數n=100,這兩者的比例相當小,因此在求時,可以將有限母體校正因子省略不計,因此我們可以求得由此可知,樣本平均數的抽樣分配為N(1630,),而所欲求的機率為:
X40100400nXXX240606060XX4060404060X5151.5151.0668093320.8664.0由以上的結果,我們有約87的信心,斷定的誤差不會超過60元。
(b)倘若將樣本數增加到n=256時,其依然等於母體平均數,而樣本平均數的標準差則為此時樣本平均數的抽樣分配為N(1630,),而所欲求的機率為:
XX25256400nXXX225當樣本數增加到256家分店時,其估計誤差不超過60元的機率也增加到了98,由此我們可以得到一個結論:
當樣本數愈大時,估計值將愈精確,其樣本平均數愈趨近於母體的平均數。
2560252560X4242.606060XX4242.9836.00082.09918.0X7.3本比例的抽分配樣樣在7.2節中我們談到了樣本平均數的抽樣分配,這一節我們將討論另一種重要的樣本統計量,樣本比例(proportion)的抽樣分配。
樣本比例在統計學上應用也相當廣泛,他可用來推估某種特性(如性別,不良品,成功)在整個母體中所佔的比例,其定義如下:
上面的(7.5)式中,Y代表不良品,成功或某種特性之觀測值所發生的次數,例如成功的次數或者男性的人數等,而n則表示樣本的大小,此時Y的機率分配,則相當於前面章節中所討論到的二項分配。
假若母體為有限母體且抽樣放回,母體比例為p的情況下,樣本比例的抽樣分配之期望值(7.6)變異數(7.7)ppnpppV1p在此,我們將上面的(7.6)式與(7.7)式證明如下:
上面所討論的是有限母體且抽樣放回的情況,倘若此時的母體為有限母體且抽出後不放回的抽樣方式時,抽取n個樣本,則樣本比例的抽樣分配之期望值與變異數分別如下:
期望值變異數(7.8)pnnpYnnYp1nppnpnpYVnnYVpV11122pppnppNnNp112我們曾經在之前討論二項分配時提過,當樣本數足夠大的時候,二項分配可以用常態分配來近似,而一般來說,當以及這兩個條件皆成立時,都可將其視為大樣本的情況,亦即可用常態分配來處理二項分配的問題。
而當我們在探討樣本比例的抽樣分配時,若樣本數夠大,則有限母體校正因子(f.p.c)可以省略,因此根據中央極限定理,在大樣本的情況下,的抽樣分配近似於一個平均數等於,標準差為的常態分配。
亦即當且時,的分配近似於常態分配(7.9)5np51pnppnpp15np51pnpnpppN)1(,【例7.8】解:
7.4常分配有與態關之三抽分配種樣常態分配在統計學的應用非常地廣泛,然而,除了常態分配之外,另外還有三種相當重要的抽樣分配:
卡方分配、t分配、F分配。
我們將在下面的各小節中分別一一加以介紹。
7.4.1卡方分配上面的(7.10)式表示卡方分配的機率密度函數。
卡方分配是由“標準常態”平方和所組成的分配,它主要是用來作適合度檢定,亦即檢定資料是否符合某種分配,有時也用來求母體變異數的信賴區間與檢定單一母體的變異數。
至於卡方分配的圖形,則如以下圖7.2所示。
卡方分配為右偏的分配曲線,我們由圖中可以看出,當自由度r越大時,其卡方分配所呈現的圖形會愈趨近於常態分配。
卡方分配的性質:
1.卡方分配之加法性:
設X與Y皆為互相獨立之卡方分配,其自由度各為及,若一統計量,則Z為自由度的卡方分配。
2.若隨機變數X為具有自由度為r的卡方分配,則
(1)期望值
(2)變異數.3.卡方分配是右偏的分配曲線,隨著自由度的增加,其變異數也會跟著增大。
1r2rYXZ21rrrXrXV24.,其中r表示其自由度,此機率代表點的右尾面積為。
舉個例子來說,表示自由度為10之卡方分配的數值,比15.987大的機率為10%,而比15.987小的機率則為90%。
)r(22r29871510210.【例7.10】利用卡方分配表求出下列的卡方值:
(a)自由度=15,(b)自由度=28,(c)自由度=5,求使得的卡方值。
15295.028201.0()220.025(5)0.975ccR=975.0)
(1)(2222025.0975.01)(220250.5.f.d8325.12)5(2025.0220.025()0.975ccR-2S7.4.2t分配上面的(7.13)式表示分配的機率密度函數,而此分配的平均數與變異數分別表示如下:
;,r為自由度且。
0)(TE2)(2rrTV2r分配的性質:
【例7.12】解:
【例7.13】假設X表示某國中之男生的體重,已知其分配為平均數,而標準差未知的常態分配,亦即XN(63,)。
倘若今從此班級中隨機抽出n=16位男學生當成樣本,其樣本標準差=3.5,則這16位男同學之平均體重在某一數值k以下的機率為0.975,試求此k值為多少?
632sX解:
由題意我們可以得知,這16位男同學的樣本是抽自於常態分配母體,其母體平均數,而母體標準差未知,而平均體重小於k值的機率為0.975,我們可以用下列式子來表示:
由於樣本為小樣本,且母體的標準差未知,其樣本標準差,故統計量T=t(15)63X975.0)(kX5.3s165363.X我們將其轉換成t分配的形式,可以求得975.0)(kX0.975165.363165.363kX975.0165.363kt025.0165.363kt我們由t分配表中可以查出,因此故由此可以得到k=64.86,亦即表示說,這16位男同學之平均體重小於64.86公斤的機率為0.975。
131.2)15(025.0t131.2)15(165.363025.0tk7.4.3F分配上面的(7.15)式表示F分配的機率密度函數。
若隨機變數X為具有自由度為r1及r2的F分配,則其平均數;變異數;222rr22r4222222121222rrrrrr42rF分配之性質:
1.2.或3.假如則21r,rFF12121,1,rrFrrF12211,1,rrFrrF()12,FFrr()211,FrrF【例7.14】利用F分配表,求出(a)以及(b)的值為多少?
解:
(a)我們由F分配表可以直接查出=2.09(b)15,9(1.0F)15,9(9.0F)15,9(1.0F在此,我們對上面的(7.19)式證明如下:
當兩母體的均未知,因,故21211)1(Sn21
(1)nc-22222)1(Sn22
(1)nc-111122222212121122222121nSnnSnSSF1,121nnF7.4.4常分配、卡方分配、態t分配以及F分配之歸納我們已經將與常態分配有關之三種分配:
卡方分配、t分配、F分配一一地介紹過,這三者在統計學上皆為重要的抽樣分配,而且三者皆為連續型隨機變數分配。
另外,它們還有一個共同的特性:
其統計量所來自的母體分配皆為常態分配。
當母體平均數以及母體變異數已知時,我們可以將卡方分配、t分配、F分配之統計量以定義上的公式來表示,如下表7-2所示。
然而在一般的情況下,母體平均數以及變異數未知時,常被當作是統計估計的對象,倘若在這種狀況下,此時則需利用表7-3的公式來代替。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 抽样 分配