在遷移學習中,基于特征映射方法是把各個領域的數(shù)據(jù)從原始高維特征空間映射到低維特征空間,在該低維空間下,源領域數(shù)據(jù)與目標領域數(shù)據(jù)擁有相同的分布。這樣就可以利用低維空間表示的有標簽的源領域樣本數(shù)據(jù)訓練分類器, 對目標測試數(shù)據(jù)進行預測。 該方法與特征選擇的區(qū)別在于這些映射得到的特征不在原始的特征當中,是全新的特征。
簡介特征映射,也稱降維,是將高維多媒體數(shù)據(jù)的特征向量映射到一維或者 低維空間的過程。在高維特征數(shù)據(jù)庫中,高維數(shù)據(jù) 存在數(shù)據(jù)冗余。由于索引結構的性能隨著維數(shù)的增 大而迅速降低,在維數(shù)大10以后,性能還不如順 序掃描,形成維數(shù)災難。降維后,應用成熟的低維索引技術,以提高性能?;谔卣饔成浞椒ê唵蝸碚f是指將數(shù)據(jù)從高維空間映射到低維空間,然后用分類器進行分類,為了得到較好的分類性能。在遷移學習領域,已經(jīng)有不少學者提出了不同的方法,例如潘嘉林等人提出了一種新的維度降低遷移學習方法, 他通過最小化源領域數(shù)據(jù)與目標領域數(shù)據(jù)在隱性語義空間上的最大均值偏差(Maximun Mean Discrepancy),求解得到降維后的特征空間。在該隱性空間上,不同的領域具有相同或者非常接近的數(shù)據(jù)分布,因此就可以直接利用監(jiān)督學習算法訓練模型對目標領域數(shù)據(jù)進行預測。顧全泉(Quanquan Gu)等人探討了多個聚類任務的學習(這些聚類任務是相關的), 提出了一種尋找共享特征子空間的框架。在該子空間中,各個領域的數(shù)據(jù)共享聚類中心,而且他們還把該框架推廣到直推式遷移分類學習。 布利澤 (Blitzer)等人 提出了一種結構對應學習算法(Structural Corresponding Learning,SCL)。該算法把領域特有的特征映射到所有領域共享的“軸”特征,然后就在這個 “軸” 特征下進行訓練學習。 結構對應學習算法已經(jīng)被用到詞性標注以及情感分析中1。
特征映射方法基于低維投影的降維方法
主成分分析(principal component analysis,PCA): 是使用最為廣泛的線性降維方法之一,它先 將數(shù)據(jù)投影到某一個主成分上,然后丟掉具有較小方差的那些維的信息,尋找具有最大方差的線性特征集,達到降維的目的。該方法的概念簡單、計算方便,但是,沒有統(tǒng)一的標準來確定主成分及其數(shù) 量。
投影法(projection pursuit,PP):其基本思想 是將高維數(shù)據(jù)投影到低維(一般是1~3維)子空間上,通過分析和研究投影數(shù)據(jù)以達到了解原始數(shù)據(jù)的目的。該方法最早產(chǎn)生于20世紀70年代初,Kruskal將數(shù)據(jù)投影到低維空間,通過極大化某個指標,以發(fā)現(xiàn)數(shù)據(jù)的聚類結構。聚類效果取決于索引函數(shù)的選擇和優(yōu)化算法。該方法可有效排除噪聲數(shù)據(jù)的干擾,但是,計算量大,不適用于高度非線性數(shù)據(jù)。
基于神經(jīng)網(wǎng)絡的降維方法
自動編碼神經(jīng)網(wǎng)絡法(auto-encoder networks):是一種前向反饋網(wǎng)絡。該網(wǎng)絡把高維空間的輸入向量映射到具有最少神經(jīng)元的一層的激勵 所表示的低維空間中,而具有最少神經(jīng)元的一層的下一層再把低維表示映射到D維空間。
自組織映射法(self-organizing mapping):對每個聚類都賦予降維后的空間中的固定位置,并根據(jù)該位置用鄰居函數(shù)來評價聚類之間的近似度。鄰居函數(shù)的值越大聚類之間的接近程度越高。根據(jù)鄰居函數(shù)值,高維數(shù)據(jù)被映射到最優(yōu)聚類的位置,實現(xiàn)高維數(shù)據(jù)的降維。該方法能很好地用于高維數(shù)據(jù)可視化。
生成建模法(generative modelling): 是基于混合密度估計的,所有的聚類都用高斯混合密度表示。
基于數(shù)據(jù)間相關度的降維方法
多維比例法(multi-dimensional scaling): 是 尋找保留了數(shù)據(jù)主要特征的低維空間,在該空間里 的數(shù)據(jù)點不僅和高維空間中的原數(shù)據(jù)對應,并且保持原數(shù)據(jù)點之間的歐式距離的差異度。適用于原始數(shù)據(jù)的距離矩陣已知的情況。
隨機鄰居嵌入法(stochastic neighbor embedding): 不直接使用數(shù)據(jù)間的差異,而是用它們定義轉換矩陣,該矩陣的每一行都包含了與一個數(shù)據(jù)點相關聯(lián)的分布,該矩陣則定義了數(shù)據(jù)點集上的隨機遍歷。
等容積法(isometric mapping): 是對多維比例法的擴展,區(qū)別在于采用測地距離表示兩點的差異。
局部線性嵌入法(locally linear embedding): 是非線性降維方法,其中高維空間由許多描述它的本質屬性并且相互鄰接的局部線性塊組成。該方法有效地獲取高維數(shù)據(jù)的本質特征,計算方法簡單、直觀。
拉普拉斯特征映射法(Laplacian eigen maps):拉普拉斯特征映射法首先將數(shù)據(jù)點與其最近鄰居連接起來以構建一個鄰居圖,然后給圖的每條邊均賦予相應的權值,最后尋求數(shù)據(jù)集的嵌入坐標表示,并保證嵌入點之間的平方距離最小,從而得 到降維空間中的最優(yōu)低維表示向量。
基于分形的降維方法
如果一個數(shù)據(jù)集的部分分布結構或屬性與整體 分布相似,則稱該數(shù)據(jù)集是分形的。基于分形的降 維方法首先要比較準確地估計出數(shù)據(jù)的本征維,包 括分數(shù)維,進而進行降維處理。
遷移學習隨著計算機技術的快速發(fā)展,機器學習在理論研究和實踐應用兩個方面都取得了巨大進步。為了保證訓練得到的分類模型具有可信的分類效果,傳統(tǒng)的機器學習方法通常假設數(shù)據(jù)的生成機制不隨環(huán)境改變,即要求源域數(shù)據(jù)和目標域數(shù)據(jù)具有相同的分布。然而在機器學習的實際應用領域中,如自然語言處理、大數(shù)據(jù)分析、生物信息技術、自動控制等,這一假設通常因為過于嚴格而不能成立。遷移學習(Transfer Learning,TL)的出現(xiàn)打破了這一限制要求,只要源領域和目標領域之間具有一定的關聯(lián)關系,在目標領域分類模型訓練時就可以借助從源領域數(shù)據(jù)和特征中已經(jīng)提取的知識,實現(xiàn)已學習知識在相似或相關領域間的復用和遷移,使傳統(tǒng)的從零開始學習變成可積累學習,不僅降低了模型訓練的成本,而且可以顯著提高機器學習的效果。因此遷移學習可以幫助人們處理一些新的應用場景,使機器學習在沒有充足可用標簽數(shù)據(jù)和規(guī)?;瘧脮r也能夠實現(xiàn)。遷移學習作為一種新的學習框架受到越來越多學者的關注和研究。美國國防部DARPA機器人大賽文檔系列給出了遷移學習的基本定義:利用事先學習的知識和技能來識別新任務的學習能力。遷移學習是運用已存有的知識對不同但相關領域問題進行求解的新的一種機器學習方法。 它放寬了傳統(tǒng)機器學習中的兩個基本假設, 目的是遷移已有的知識來解決目標領域中僅有少量或甚至沒有有標簽樣本數(shù)據(jù)時的學習問題。
遷移學習廣泛存在于人類的認知學習活動中,比如一個人如果會使用 C++編程,那么他很容易就會掌握 Java 編程語言;一個人要是會拉小提琴,那么他就能夠輕松地把拉小提琴的相關音樂知識遷移到學習鋼琴中去。而且在遷移學習的兩個領域之間,可以共享的信息越多、相似度越高,知識遷移學習的效果就越好,反之,效果越差,甚至會給目標領域數(shù)據(jù)的學習帶來不好的影響,即產(chǎn)生“負遷移”現(xiàn)象。
本詞條內(nèi)容貢獻者為:
方正 - 副教授 - 江南大學