偏殘差圖(Partial Residual Plot)是多元回歸中常用的診斷工具,特別是評估模型中在一個或另一個解釋變量中是否包含非線性項。在多元回歸y=β0+β1x1+…+βpxp+ε中,若欲反映其中變量Xj與因變量y之間的關(guān)系并用圖形顯示,其方法之一是用偏殘差圖。偏殘差圖是用偏殘差代替殘差圖中的普通殘差。
基本介紹偏殘差圖由的散點圖組成,其中,
是關(guān)于第i個解釋變量的第j次觀察,
定義為:
其中,
是反應(yīng)變量的均值,
是第i個解釋變量的均值,
是關(guān)于解釋變量i的回歸系數(shù)的估計,
是第j次觀察的殘差。圖形中的非線性表明回歸模型中包含
中的非線性項。
偏殘差圖是用偏殘差代替殘差圖中的普通殘差。
相關(guān)分析假設(shè)y是可加地但并非必然線性地相關(guān)于 ,則有:
若偏回歸函數(shù)
是簡單而單調(diào)的,那我們就能通過應(yīng)用凸出法則來找到能使y和預(yù)測變量
關(guān)系線性化的變換。在另一種情況下,若
為
的簡單多項式形式,比如二次或三次多項式,那么我們就可以指定一個包含預(yù)測變量多項式形式的參數(shù)模型。
由于預(yù)測變量之間的相關(guān)性,在多元回歸中尋找非線性關(guān)系要比在簡單回歸中更困難。因此,雖然y關(guān)于 散點圖能夠提供關(guān)于兩個變量之間邊際關(guān)系的信息,但它并不必然能告訴我們在控制其他xs不變的情況下y與
之間的偏關(guān)系
。
在大多數(shù)場合下,偏殘差圖(也被稱做成分+殘差圖,component+residual plots)能夠幫助檢測多元回歸中的非線性。讓我們擬合一個初步的線性最小二乘回歸:
此時為了得到
的偏殘差,我們向關(guān)于y與
之間關(guān)系的
線性成分中加入最小二乘法殘差:
這里關(guān)鍵的想法是y與 之間未進(jìn)入模型的非線性關(guān)系應(yīng)能體現(xiàn)在最小二乘法的殘差中,從而通過描繪并平滑
與
的關(guān)系能夠揭示y與
之間的偏相關(guān)關(guān)系。我們將平滑后的偏殘差圖看做對偏回歸函數(shù)的估計值
。我們對每一個預(yù)測變量
重復(fù)這一過程。
基于加拿大職業(yè)聲望數(shù)據(jù)職業(yè)聲望對收入和教育回歸的偏殘差圖如圖1所示。每一幅圖中的實線給出了局部線性擬合;虛線給出了最小二乘法擬合結(jié)果并描繪了從相應(yīng)預(yù)測變量方向上側(cè)面看過去的多元最小二乘回歸平面。
圖1 關(guān)于職業(yè)聲望對(a)收入(b)教育回歸的偏殘差圖。每一幅圖中繪出使用跨距=0.6的局部線性擬合,以及線性最小二乘線。
從圖1(a)中可以明顯地看到控制教育后聲望和收入的關(guān)系明顯是非線性的。雖然非參數(shù)回歸曲線并不完全平滑,凸起部分指向上方和左方,提示我們要沿冪階和根式階向下變換收入變量。視覺試錯法表明對收入的對數(shù)變換能夠?qū)⒙曂c收入的關(guān)系拉直。除非所有的偏殘差圖部呈現(xiàn)相似的模式,我們在多元回歸中更喜歡變換預(yù)測變量而不是響應(yīng)變量,這是由于對y的變換將會改變它與所有x之間的關(guān)系。
·圖1(b)暗示聲望與教育之間的偏關(guān)系是非線性、單調(diào)、非簡單的。其結(jié)果是,對教育的冪變換并不可取。我們可以嘗試對教育使用立方回歸(即,在回歸模型中引入包括教育、教育的平方和教育的立方),但由于偏離線性較小,另一個可行方案是直接將教育的影響當(dāng)做線性的。
對職業(yè)聲望關(guān)于教育和收入對數(shù)(以2為底數(shù))進(jìn)行回歸可得到如下結(jié)果:
因此,保持教育不變,收入翻倍(即增加1單位的log2收入)平均起來能夠使職業(yè)聲望增加大約8點;保持收入不變而增加1年教育則平均能使聲望增加4點1。
本詞條內(nèi)容貢獻(xiàn)者為:
劉軍 - 副研究員 - 中國科學(xué)院工程熱物理研究所