版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

[科普中國(guó)]-困惑度

科學(xué)百科
原創(chuàng)
科學(xué)百科為用戶提供權(quán)威科普內(nèi)容,打造知識(shí)科普陣地
收藏

在信息論中,perplexity(困惑度)用來(lái)度量一個(gè)概率分布或概率模型預(yù)測(cè)樣本的好壞程度。它也可以用來(lái)比較兩個(gè)概率分布或概率模型。(譯者:應(yīng)該是比較兩者在預(yù)測(cè)樣本上的優(yōu)劣)低困惑度的概率分布模型或概率模型能更好地預(yù)測(cè)樣本。

概率分布的困惑度離散概率分布p的困惑度由下式給出

其中H(p) 是該分布的熵,x遍歷事件空間。

隨機(jī)變量X的復(fù)雜度由其所有可能的取值x定義。

一個(gè)特殊的例子是k面均勻骰子的概率分布,它的困惑度恰好是k。一個(gè)擁有k困惑度的隨機(jī)變量有著和k面均勻骰子一樣多的不確定性,并且可以說(shuō)該隨機(jī)變量有著k個(gè)困惑度的取值(k-ways perplexed)。(在有限樣本空間離散隨機(jī)變量的概率分布中,均勻分布有著最大的熵)

困惑度有時(shí)也被用來(lái)衡量一個(gè)預(yù)測(cè)問(wèn)題的難易程度。但這個(gè)方法不總是精確的。例如:在概率分布B(1,P=0.9)中,即取得1的概率是0.9,取得0的概率是0.1。

概率模型的困惑度用一個(gè)概率模型q去估計(jì)真實(shí)概率分布p,那么可以通過(guò)測(cè)試集中的樣本來(lái)定義這個(gè)概率模型的困惑度。

其中測(cè)試樣本x1, x2, …, xN是來(lái)自于真實(shí)概率分布p的觀測(cè)值,b通常取2。因此,低的困惑度表示q對(duì)p擬合的越好,當(dāng)模型q看到測(cè)試樣本時(shí),它會(huì)不會(huì)“感到”那么“困惑”。

我們指出,指數(shù)部分是交叉熵。

其中表示我們對(duì)真實(shí)分布下樣本點(diǎn)x出現(xiàn)概率的估計(jì)。比如用p(x)=n/N.

每個(gè)分詞的困惑度在自然語(yǔ)言處理中,困惑度是用來(lái)衡量語(yǔ)言概率模型優(yōu)劣的一個(gè)方法。一個(gè)語(yǔ)言概率模型可以看成是在整過(guò)句子或者文段上的概率分布。(譯者:例如每個(gè)分詞位置上有一個(gè)概率分布,這個(gè)概率分布表示了每個(gè)詞在這個(gè)位置上出現(xiàn)的概率;或者每個(gè)句子位置上有一個(gè)概率分布,這個(gè)概率分布表示了所有可能句子在這個(gè)位置上出現(xiàn)的概率)

比如,i這個(gè)句子位置上的概率分布的信息熵可能是190,或者說(shuō),i這個(gè)句子位置上出現(xiàn)的句子平均要用190 bits去編碼,那么這個(gè)位置上的概率分布的困惑度就是2^(190)。(譯者:相當(dāng)于投擲一個(gè)2^(190)面篩子的不確定性)通常,我們會(huì)考慮句子有不同的長(zhǎng)度,所以我們會(huì)計(jì)算每個(gè)分詞上的困惑度。比如,一個(gè)測(cè)試集上共有1000個(gè)單詞,并且可以用7.95個(gè)bits給每個(gè)單詞編碼,那么我們可以說(shuō)這個(gè)模型上每個(gè)詞有2^(7.95)=247 困惑度。相當(dāng)于在每個(gè)詞語(yǔ)位置上都有投擲一個(gè)247面骰子的不確定性。

在Brown corpus (1 million words of American English of varying topics and genres) 上報(bào)告的最低的困惑度就是247per word,使用的是一個(gè)trigram model(三元語(yǔ)法模型)。在一個(gè)特定領(lǐng)域的語(yǔ)料中,常??梢缘玫礁偷睦Щ蠖?。

要注意的是,這個(gè)模型用的是三元語(yǔ)法。直接預(yù)測(cè)下一個(gè)單詞是”the”的正確率是7%。但如果直接應(yīng)用上面的結(jié)果,算出來(lái)這個(gè)預(yù)測(cè)是正確的概率是1/247=0.4%,這就錯(cuò)了。(譯者:不是說(shuō)算出來(lái)就一定是0.4%,而是說(shuō)這樣算本身是錯(cuò)的)因?yàn)橹苯宇A(yù)測(cè)下一個(gè)詞是”the“的話,我們是在使用一元語(yǔ)法,而247是來(lái)源于三元語(yǔ)法的。當(dāng)我們?cè)谑褂萌Z(yǔ)法的時(shí)候,會(huì)考慮三元語(yǔ)法的統(tǒng)計(jì)數(shù)據(jù),這樣做出來(lái)的預(yù)測(cè)會(huì)不一樣并且通常有更好的正確率。

本詞條內(nèi)容貢獻(xiàn)者為:

王沛 - 副教授、副研究員 - 中國(guó)科學(xué)院工程熱物理研究所