全模型(Full Model)也稱為飽和模型(Saturated Model),指包含所有自變量的線性回歸模型。在對(duì)回歸模型進(jìn)行一般線性檢驗(yàn)時(shí),需要先擬合一個(gè)全模型,并計(jì)算其殘差平方和。然后再擬合一個(gè)不包括欲檢驗(yàn)參數(shù)的線性回歸模型,通常稱作簡(jiǎn)模型或選模型,也計(jì)算出其殘差平方和,通過全模型和簡(jiǎn)模型的殘差平方和之差進(jìn)行有關(guān)參數(shù)的檢驗(yàn)1。
基本介紹設(shè)有一個(gè)因變量Y和m個(gè)自變量構(gòu)成的線性回歸模型為:
由于該模型是因變量Y與所有自變量之間的回歸模型,故稱為全模型。實(shí)際應(yīng)用中,有時(shí),尤其是當(dāng)m較大時(shí),我們可能會(huì)舍棄一些變量,只用其中一些自變量建立回歸方程,如從所有可供選擇的m個(gè)自變量中選擇其中p個(gè),為了方便起見,我們不妨認(rèn)為所選擇的p個(gè)自變量就是
中的前p個(gè),記為
,這樣由所選的p個(gè)自變量建立的回歸模型為:
我們稱其為選模型2。
自變量選擇對(duì)估計(jì)和預(yù)測(cè)的影響我們可以將上面關(guān)于自變量的選擇問題看成是選用全模型還是選模型去描述一個(gè)實(shí)際問題。如果應(yīng)該用全模型描述實(shí)際問題,而我們卻選擇了選模型,則說明我們?cè)诮⒛P蜁r(shí)就丟掉了一些有用的自變量;反之,如果應(yīng)該用選模型,而我們卻使用了全模型,則說明我們將一些不必要的自變量引進(jìn)了模型。兩種情況都屬于因自變量而導(dǎo)致的模型設(shè)定的錯(cuò)誤。那么,模型自變量選擇的不當(dāng)會(huì)給參數(shù)估計(jì)或模型的應(yīng)用(如對(duì)因變量的預(yù)測(cè))帶來(lái)什么影響呢2?
為了方便起見,我們把模型(1)的參數(shù)向量和隨機(jī)誤差項(xiàng)
的估計(jì)量記為:
模型(2)的參數(shù)向量
和
的估計(jì)量記為:
1)若已知全模型正確而誤用了選模型,當(dāng)與
的相關(guān)系數(shù)不全為零時(shí),則選模型的回歸系數(shù)的最小二乘估計(jì)是全模型相應(yīng)參數(shù)的有偏估計(jì)。
2)若已知全模型正確,當(dāng)給定新的自變量值時(shí),因變量的估計(jì)值為:
但若誤用了選模型,則Y的估計(jì)值為:
該預(yù)測(cè)值是
的有偏估計(jì),即
。這表明,如果全模型正確,而我們舍掉了m-p個(gè)自變量,用剩下的p個(gè)自變量建立回歸模型,則參數(shù)估計(jì)值是全模型的相應(yīng)參數(shù)的有偏估計(jì),用其進(jìn)行預(yù)測(cè),預(yù)測(cè)值也是有偏的。
3)從預(yù)測(cè)的殘差來(lái)看,選模型的預(yù)測(cè)殘差為:
而全模型的殘差為:
其中
則
??梢钥吹剑M管選模型所做的預(yù)測(cè)是有偏的,但是得到的預(yù)測(cè)殘差的方差下降了。
4)如果選模型正確,從無(wú)偏性的角度看,選模型的預(yù)測(cè)值為:
是因變量的某一值
的無(wú)偏估計(jì)。此時(shí),全模型的預(yù)測(cè)值
則是
的有偏估計(jì)。
從預(yù)測(cè)方差的角度看,選模型的預(yù)測(cè)方差小于全模型的預(yù)測(cè)方差。從均方預(yù)測(cè)誤差的角度看,全模型的均方誤差包含預(yù)測(cè)方差和預(yù)測(cè)偏差的平方兩部分,而選模型的均方誤差僅包含預(yù)測(cè)方差這一項(xiàng),且小于全模型,因而全模型的預(yù)測(cè)誤差將會(huì)更大。
可見,一個(gè)好的回歸模型,并不是考慮自變量越多越好或精度越高越好。在建立回歸模型時(shí),選擇自變量的基本指導(dǎo)思想是少而精。有時(shí)可能漏掉了一些對(duì)因變量Y還有些影響但影響并不十分大的自變量,這時(shí)由于選模型估計(jì)的回歸系數(shù)的方差,要比由全模型所估計(jì)的相應(yīng)變量的回歸系數(shù)的方差小。此外,對(duì)于所預(yù)測(cè)的因變量的方差來(lái)說也是如此,少了一些對(duì)因變量y有影響的自變量后,會(huì)導(dǎo)致估計(jì)量是有偏的。然而,盡管估計(jì)量是有偏的,但其預(yù)測(cè)偏差的方差會(huì)下降。
如果保留下來(lái)的自變量中有些對(duì)因變量不太重要,那么方程中包括這些變量就會(huì)導(dǎo)致模型參數(shù)的估計(jì)和因變量預(yù)測(cè)的有偏性與精度的降低。因此,建立回歸模型時(shí),應(yīng)盡可能剔除那些可有可無(wú)的自變量2。
本詞條內(nèi)容貢獻(xiàn)者為:
劉軍 - 副研究員 - 中國(guó)科學(xué)院工程熱物理研究所