定義
P值是指在一個概率模型中,統(tǒng)計摘要(如兩組樣本均值差)與實際觀測數據相同,或甚至更大這一事件發(fā)生的概率。換言之,是檢驗假設零假設成立或表現更嚴重的可能性。P值若與選定顯著性水平(0.05或0.01)相比更小,則零假設會被否定而不可接受,然而這并不直接表明原假設正確。P值是一個服從正態(tài)分布的隨機變量,在實際使用中因樣本等各種因素存在不確定性,產生的結果可能會帶來爭議。1
意義
發(fā)展史
R·A·Fisher(1890-1962)作為一代假設檢驗理論的創(chuàng)立者,在假設檢驗中首先提出P值的概念。他認為假設檢驗是一種程序,研究人員依照這一程序可以對某一總體參數形成一種判斷。也就是說,他認為假設檢驗是數據分析的一種形式,是人們在研究中加入的主觀信息。當時這一觀點遭到了Neyman-Pearson的反對,他們認為假設檢驗是一種方法,決策者在不確定的條件下進行運作,利用這一方法可以在兩種可能中作出明確的選擇,而同時又要控制錯誤發(fā)生的概率,這兩種方法進行長期且痛苦的論戰(zhàn)。雖然Fisher的這一觀點同樣也遭到了現代統(tǒng)計學家的反對,但是他對現代假設檢驗的發(fā)展作出了巨大的貢獻。
Fisher的具體做法是:
假定某一參數的取值;
選擇一個檢驗統(tǒng)計量(例如z 或Z 統(tǒng)計量) ,該統(tǒng)計量的分布在假定的參數取值為真時應該是完全已知的;
從研究總體中抽取一個隨機樣本計算檢驗統(tǒng)計量的值計算概率P值(或者觀測)的顯著水平,即在假設為真時的前提下,檢驗統(tǒng)計量大于或等于實際觀測值的概率2;
若P<0.01,說明是較強的判定結果,拒絕假定的參數取值;若0.01<P<0.05,說明較弱的判定結果,拒絕假定的參數取值;若P>0.05,說明結果更傾向于接受假定的參數取值。
可是,那個年代,由于硬件的問題,計算P值并非易事,人們就采用了統(tǒng)計量檢驗方法,也就是我們最初學的t值和t臨界值比較的方法。統(tǒng)計檢驗法是在檢驗之前確定顯著性水平α,也就是說事先確定了拒絕域。但是,如果選中相同的,所有檢驗結論的可靠性都一樣,無法給出觀測數據與原假設之間不一致程度的精確度量,即:只要統(tǒng)計量落在拒絕域,假設的結果都是一樣,即結果顯著。但實際上,統(tǒng)計量落在拒絕域不同的地方,實際上的顯著性有較大的差異。因此,隨著計算機的發(fā)展,P值的計算不再是個難題,成為最常用的統(tǒng)計指標之一。
計算方法
為理解P值的計算過程,用Z表示檢驗的統(tǒng)計量,ZC表示根據樣本數據計算得到的檢驗統(tǒng)計量值3。
左側檢驗
P值是當時,檢驗統(tǒng)計量小于或等于根據實際觀測樣本數據計算得到的檢驗統(tǒng)計量值的概率,即P值
右側檢驗
P值是當時,檢驗統(tǒng)計量大于或等于根據實際觀測樣本數據計算得到的檢驗統(tǒng)計量值的概率,即P值
雙側檢驗
P值是當時,檢驗統(tǒng)計量大于或等于根據實際觀測樣本數據計算得到的檢驗統(tǒng)計量值的概率,即P值