特征縮放是用來統(tǒng)一資料中的自變項或特征范圍的方法,在資料處理中,通常會被使用在資料前處理這個步驟。因為在原始的資料中,各變數(shù)的范圍大不相同。
簡介對于某些機(jī)器學(xué)習(xí)的算法,若沒有做過標(biāo)準(zhǔn)化,目標(biāo)函數(shù)會無法適當(dāng)?shù)倪\(yùn)作。舉例來說,多數(shù)的分類器利用兩點間的距離計算兩點的差異,若其中一 個特征具有非常廣的范圍,那兩點間的差異就會被該特征左右,因此,所有的特征都該被標(biāo)準(zhǔn)化,這樣才能大略的使各特征依比例影響距離。
特征縮放(Feature Scaling)是將不同特征的值量化到同一區(qū)間的方法,也是預(yù)處理中容易忽視的關(guān)鍵步驟之一。除了極少數(shù)算法(如決策樹和隨機(jī)森林)之外,大部分機(jī)器學(xué)習(xí)和優(yōu)化算法采用特征縮放后會表現(xiàn)更優(yōu)。
動機(jī)因為在原始的資料中,各變數(shù)的范圍大不相同。對于某些機(jī)器學(xué)習(xí)的算法,若沒有做過標(biāo)準(zhǔn)化,目標(biāo)函數(shù)會無法適當(dāng)?shù)倪\(yùn)作。舉例來說,多數(shù)的分類器利用兩點間的距離計算兩點的差異,若其中一 個特征具有非常廣的范圍,那兩點間的差異就會被該特征左右,因此,所有的特征都該被標(biāo)準(zhǔn)化,這樣才能大略的使各特征依比例影響距離。
另外一個做特征縮放的理由是他能使加速梯度下降法的收斂。1
方法重新縮放最簡單的方式是重新縮放特征的范圍到[0, 1]或[-1, 1], 依據(jù)原始的資料選擇目標(biāo)范圍,通式如下:
x 是原始的值, x' 是被標(biāo)準(zhǔn)化后的值。例如,假設(shè)我們有學(xué)生的體重資料,范圍落在[160磅, 200磅],為了重新縮放這個資料,我們會先將每個學(xué)生的體重減掉160,接著除與40(最大體重與最小體重的差值)2
標(biāo)準(zhǔn)化在機(jī)器學(xué)習(xí)中,我們可能要處理不同種類的資料,例如,音訊和圖片上的像素值,這些資料可能是高維度的,資料標(biāo)準(zhǔn)化后會使每個特征中的數(shù)值平均變?yōu)?(將每個特征的值都減掉原始資料中該特征的平均)、標(biāo)準(zhǔn)差變?yōu)?,這個方法被廣泛的使用在許多機(jī)器學(xué)習(xí)算法中(例如:支持向量機(jī)、邏輯回歸和類神經(jīng)網(wǎng)絡(luò))。2
優(yōu)點特征縮放可以使機(jī)器學(xué)習(xí)算法工作的更好。比如在K近鄰算法中,分類器主要是計算兩點之間的歐幾里得距離,如果一個特征比其它的特征有更大的范圍值,那么距離將會被這個特征值所主導(dǎo)。因此每個特征應(yīng)該被歸一化,比如將取值范圍處理為0到1之間。
特征縮放也可以加快梯度收斂的速度。1
應(yīng)用在隨機(jī)梯度下降法中, 特征縮放有時能加速其收斂速度。而在支持向量機(jī)中,他可以使其花費(fèi)更少時間找到支持向量,特征縮放會改變支持向量機(jī)的結(jié)果。1
本詞條內(nèi)容貢獻(xiàn)者為:
曹慧慧 - 副教授 - 中國礦業(yè)大學(xué)