歷史
在概率論和統(tǒng)計(jì)學(xué)中,學(xué)生t**-分布**(Student's t-distribution)經(jīng)常應(yīng)用在對(duì)呈正態(tài)分布的總體的均值進(jìn)行估計(jì)。它是對(duì)兩個(gè)樣本均值差異進(jìn)行顯著性測試的學(xué)生t測定的基礎(chǔ)。t檢定改進(jìn)了Z檢定(en:Z-test),不論樣本數(shù)量大或小皆可應(yīng)用。在樣本數(shù)量大(超過30)時(shí),可以應(yīng)用Z檢定,但Z檢定用在小的樣本會(huì)產(chǎn)生很大的誤差,因此樣本很小的情況下得改用學(xué)生t檢定。在數(shù)據(jù)有三組以上時(shí),因?yàn)檎`差無法壓低,此時(shí)可以用變異數(shù)分析代替學(xué)生t檢定。
當(dāng)母群體的標(biāo)準(zhǔn)差是未知的但卻又需要估計(jì)時(shí),可以使用學(xué)生t-分布。
學(xué)生t-分布可簡稱為t分布。其推導(dǎo)由威廉·戈塞于1908年首先發(fā)表,當(dāng)時(shí)他還在都柏林的健力士釀酒廠工作。因?yàn)椴荒芤运救说拿x發(fā)表,所以論文使用了學(xué)生(Student)這一筆名。之后t檢驗(yàn)以及相關(guān)理論經(jīng)由羅納德·費(fèi)雪的工作發(fā)揚(yáng)光大,而正是他將此分布稱為學(xué)生分布。
定義
由于在實(shí)際工作中,往往σ是未知的,常用s作為σ的估計(jì)值,為了與u變換區(qū)別,稱為t變換,統(tǒng)計(jì)量t 值的分布稱為t分布。1
假設(shè)X服從標(biāo)準(zhǔn)正態(tài)分布N(0,1),Y服從分布,那么
的分布稱為自由度為n的t分布,記為
。
分布密度函數(shù) ,
其中,Gam(x)為伽馬函數(shù)。
擴(kuò)展
正態(tài)分布(normal distribution)是數(shù)理統(tǒng)計(jì)中的一種重要的理論分布,是許多統(tǒng)計(jì)方法的理論基礎(chǔ)。正態(tài)分布有兩個(gè)參數(shù),μ和σ,決定了正態(tài)分布的位置和形態(tài)。為了應(yīng)用方便,常將一般的正態(tài)變量X通過u變換[(X-μ)/σ]轉(zhuǎn)化成標(biāo)準(zhǔn)正態(tài)變量u,以使原來各種形態(tài)的正態(tài)分布都轉(zhuǎn)換為μ=0,σ=1的標(biāo)準(zhǔn)正態(tài)分布(standard normal distribution),亦稱u分布。3
根據(jù)中心極限定理,通過上述的抽樣模擬試驗(yàn)表明,在正態(tài)分布總體中以固定n,抽取若干個(gè)樣本時(shí),樣本均數(shù)的分布仍服從正態(tài)分布,即N(μ, )。所以,對(duì)樣本均數(shù)的分布進(jìn)行u變換,也可變換為標(biāo)準(zhǔn)正態(tài)分布N (0,1)。
特征
1.以0為中心,左右對(duì)稱的單峰分布;
2.t分布是一簇曲線,其形態(tài)變化與n(確切地說與自由度df)大小有關(guān)。自由度df越小,t分布曲線越低平;自由度df越大,t分布曲線越接近標(biāo)準(zhǔn)正態(tài)分布(u分布)曲線,如圖:
t(n)分布與標(biāo)準(zhǔn)正態(tài)N(0,1)的密度函數(shù)。
3.隨著自由度逐漸增大,t分布逐漸接近標(biāo)準(zhǔn)正態(tài)分布。
對(duì)應(yīng)于每一個(gè)自由度df,就有一條t分布曲線,每條曲線都有其曲線下統(tǒng)計(jì)量t的分布規(guī)律,計(jì)算較復(fù)雜。
學(xué)生的t分布(或也t分布) ,在概率統(tǒng)計(jì)中,在置信區(qū)間估計(jì)、顯著性檢驗(yàn)等問題的計(jì)算中發(fā)揮重要作用。
t分布情況出現(xiàn)時(shí)(如在幾乎所有實(shí)際的統(tǒng)計(jì)工作)的總體標(biāo)準(zhǔn)偏差是未知的,并要從數(shù)據(jù)估算。教科書問題的處理標(biāo)準(zhǔn)偏差,因?yàn)槿绻环Q為是兩類:
( 1 )那些在該樣本規(guī)模是如此之大的一個(gè)可處理的數(shù)據(jù)為基礎(chǔ)估計(jì)的差異,就好像它是一定的;
( 2 )這些說明數(shù)學(xué)推理,在其中的問題,估計(jì)標(biāo)準(zhǔn)偏差是暫時(shí)忽略的,因?yàn)檫@不是一點(diǎn),這是作者或?qū)煯?dāng)時(shí)的解釋。
置信區(qū)間
假設(shè)數(shù)量A在當(dāng)T呈t-分布(T的自由度為n?1)滿足
這與是相同的。A是這個(gè)概率分布的第95個(gè)百分點(diǎn)。3
那么
等價(jià)于
因此μ的90%置信區(qū)間為:。
計(jì)算
下表列出了自由度為1-30以及80、100、120等t-分布的單側(cè)和雙側(cè)區(qū)間值。例如,當(dāng)樣本數(shù)量n=5時(shí),則自由度df=4,可以查找表中以4開頭的行。該行第5列值為2.132,對(duì)應(yīng)的單側(cè)值為95%(雙側(cè)值為90%)。這也就是說,T小于2.132的概率為95%(即單側(cè)),記為Pr(?∞ < T < 2.132) = 0.95;同時(shí),T值介于-2.132和2.132之間的概率為90%(即雙側(cè)),記為Pr(?2.132 < T < 2.132) = 0.9。
這是根據(jù)分布的對(duì)稱性計(jì)算得到的。1
- Pr(T < ?2.132) = 1 ? Pr(T > ?2.132) = 1 ? 0.95 = 0.05
因此,
- Pr(?2.132 < T < 2.132) = 1 ? 2(0.05) = 0.9
注意 關(guān)于表格的最后一行的值:***自由度為無限大(n=120)的t-***分布和正態(tài)分布等價(jià)。
|| ||