概率模型,給定一個用戶的查詢串,相對于該串存在一個包含所有相關文檔的集合。我們把這樣的集合看作是一個理想的結果文檔集,在給出理想結果集后,我們能很容易得到結果文檔。
這樣我們可以把查詢處理看作是對理想結果文檔集屬性的處理。問題是我們并不能確切地知道這些屬性,我們所知道的是存在索引術語來表示這些屬性。由于在查詢期間這些屬性都是不可見的,這就需要在初始階段來估計這些屬性。這種初始階段的估計允許我們對首次檢索的文檔集合返回理想的結果集,并產生一個初步的概率描述。
簡介概率模型(Statistical Model,也稱為Probabilistic Model)是用來描述不同隨機變量之間關系的數(shù)學模型,通常情況下刻畫了一個或多個隨機變量之間的相互非確定性的概率關系。從數(shù)學上講,該模型通常被表達為 ,其中 Y 是觀測集合用來描述可能的觀測結果, P 是 Y 對應的概率分布函數(shù)集合。若使用概率模型,一般而言需假設存在一個確定的分布P 生成觀測數(shù)據(jù) Y 。因此通常使用統(tǒng)計推斷的辦法確定集合 P 中誰是數(shù)據(jù)產生的原因。
大多數(shù)統(tǒng)計檢驗都可以被理解為一種概率模型。例如,一個比較兩組數(shù)據(jù)均值的學生t檢驗可以被認為是對該概率模型參數(shù)是否為0的檢測。此外,檢驗與模型的另一個共同點則是兩者都需要提出假設并且誤差在模型中常被假設為正態(tài)分布。1
定義概率模型 是一個概率分布函數(shù)或密度函數(shù)的集合??煞譃閰?shù)模型,無參數(shù)和半?yún)?shù)模型。
參數(shù)模型是一組由有限維參數(shù)構成的分布集合 。其中
是參數(shù),而
是其可行歐幾里得子空間。概率模型可被用來描述一組可產生已知采樣數(shù)據(jù)的分布集合。例如,假設數(shù)據(jù)產生于唯一參數(shù)的高斯分布,則我們可假設該概率模型為
。
無參數(shù)模型則是一組由無限維參數(shù)構成的概率分布函數(shù)集合,可被表示為 。
相比于無參數(shù)模型和參數(shù)模型,半?yún)?shù)模型也由無限維參數(shù)構成,但其在分布函數(shù)空間內并不緊密。例如,一組混疊的高斯模型。確切的說,如果 是參數(shù)的維度,是數(shù)據(jù)點的大小,如果隨著
和
則,則我們稱之為半?yún)?shù)模型。2
處理過程為了提高理想結果集的描述概率,系統(tǒng)需要與用戶進行交互式(feedback)操作。具體處理過程如下:用戶大致瀏覽一下結果文檔,決定哪些是相關的,哪些是不相關的;然后系統(tǒng)利用該信息重新定義理想結果集的概率描述;重復以上操作,就會越來越接近真正的結果文檔集。1
算法下面將具體討論一種簡單的算法。
在查詢的開始間段只定義了查詢串,還沒有得到結果文檔集。我們不得不作一些簡單的假設,例如:(a)假定 對所有的索引術語 來說是常數(shù)(一般等于0.5);(b)假定索引術語在非相關文檔中的分布可以由索引術語在集合中所有文檔中的分布來近似表示。這兩種假設用公式表示如下:
表示出現(xiàn)索引術語 的文檔的數(shù)目,N是集合中總的文檔的數(shù)目。在上面的假設下,我們可以得到部分包含查詢串的文檔,并為他們提供一個初始的相關概率。1
優(yōu)點概率模型的優(yōu)點在于,文檔可以按照他們相關概率遞減的順序來計算秩(rank)。他的缺點在于:開始時需要猜想把文檔分為相關和不相關的兩個集合,實際上這種模型沒有考慮索引術語在文檔中的頻率(因為所有的權重都是二元的),而索引術語都是相互獨立的。2
本詞條內容貢獻者為:
曹慧慧 - 副教授 - 中國礦業(yè)大學