*銘文、碑刻是過去文明的思想、文化和語言的體現(xiàn)。金石學(xué)家破譯千年前的密碼,需要完成文本修復(fù)、時(shí)間歸因和地域歸因三大任務(wù)。
主流的研究方式是「字符串匹配」,即憑借記憶或查詢語料庫匹配字型相似的銘文,這導(dǎo)致了結(jié)果的混淆和誤判。
為此,DeepMind 和威尼斯福斯卡里大學(xué)聯(lián)合開發(fā)了 Ithaca,利用 AI 幫助人類學(xué)者破譯希臘銘文。*
作者 | 加零
編輯 | 雪菜、三羊
金石學(xué),是研究金石銘文、碑刻和古代銘文的學(xué)科,連接著過去文明的思想、文化和語言。目前,學(xué)界面臨著一個重要問題:如何深入研究和理解這些遺產(chǎn)?
通常意義上,解讀銘文碑刻需要金石學(xué)家完成以下 3 個基本任務(wù):
文本修復(fù) (text restoration):補(bǔ)充文本中缺失的部分;
時(shí)間歸因 (chronological attribution):確定銘文寫作的時(shí)間;
地域歸因 (geographical attribution):確定銘文寫作的初始地點(diǎn)。
完成這些任務(wù),金石學(xué)家需要結(jié)合上下文和現(xiàn)有語料庫,開展大量比對研究。雖然數(shù)字語料庫的出現(xiàn)能一定程度減少研究人員的負(fù)擔(dān),但其采取的字符串匹配方式,往往導(dǎo)致結(jié)果的混淆和誤判。同時(shí)由于年代久遠(yuǎn),銘文多有受損和遺失,使得任務(wù)愈發(fā)復(fù)雜。
銘文修復(fù)圖示
而 AI 善于發(fā)現(xiàn)并運(yùn)用復(fù)雜的統(tǒng)計(jì)模式,對人難以處理的大批量數(shù)據(jù)進(jìn)行分析。因此,DeepMind 和威尼斯福斯卡里大學(xué) (Ca’ Foscari University of Venice) 的研究者聯(lián)合開發(fā)了 Ithaca,旨在協(xié)助金石學(xué)家進(jìn)行文本修復(fù)、時(shí)間歸因和地域歸因的工作。
實(shí)驗(yàn)證實(shí),Ithaca 文本修復(fù)工作的準(zhǔn)確率達(dá)到 62%,時(shí)間歸因誤差在 30 年內(nèi),地域歸因準(zhǔn)確率達(dá)到 71%,且具有很好的協(xié)同性。相關(guān)論文已發(fā)表于「Nature」。
相關(guān)成果發(fā)表在「Nature」
獲取論文:
https://www.nature.com/articles/s41586-022-04448-z
Ithaca 的相關(guān)代碼已開源在 GitHub 平臺,金石學(xué)家也可利用公共界面開展研究。
源代碼:https://github.com/deepmind/Ithaca
公共界面:https://ithaca.deepmind.com/
實(shí)驗(yàn)過程
數(shù)據(jù)集:機(jī)器可操作銘文集 I.PHI
研究者們基于帕卡德人文研究所的可搜索希臘銘文公共數(shù)據(jù)集 PHI 開展研究。
注:PHI 全稱 The Packard Humanities Institute’s Searchable Greek Inscriptions public dataset
為了便于機(jī)器操作,研究者們對 PHI 中的文本進(jìn)行過濾,為選擇的文本分配數(shù)字 ID、相應(yīng)的標(biāo)注地點(diǎn)和時(shí)間信息,最終得到 I.PHI 數(shù)據(jù)集。
I.PHI 數(shù)據(jù)集是目前最大的機(jī)器可操作銘文數(shù)據(jù)集,包含 78,608 個銘文。
I.PHI 數(shù)據(jù)集示例
算法訓(xùn)練:針對 3 大任務(wù)開展訓(xùn)練
文本修復(fù):采用交叉熵?fù)p失函數(shù),掩蓋輸入文本的部分內(nèi)容,訓(xùn)練 Ithaca 模型預(yù)測被掩蓋的字符;
時(shí)間歸因:以 10 年為間隔,Ithaca 將公元前后 800 年離散為具有相等概率的時(shí)間段,稱為目標(biāo)概率分布。采用 Kullback-Leibler 散度,最小化預(yù)測概率分布和目標(biāo)概率分布之間的差異;
地域歸因:使用交叉熵?fù)p失函數(shù),將地域區(qū)域元數(shù)據(jù)作為目標(biāo)標(biāo)簽,應(yīng)用平滑系數(shù) 10% 的標(biāo)簽平滑技術(shù)避免過擬合。
基于此,Ithaca 在谷歌云平臺上的 128 個 TPU v4 pod 上開展了一周的訓(xùn)練,batch size 為 8,192 篇文本,使用 LAMB 優(yōu)化器以 3 × 10-4 的學(xué)習(xí)率優(yōu)化 Ithaca 參數(shù)。
模型結(jié)構(gòu):Ithaca 模型包括 4 部分
Ithaca 模型任務(wù)處理流程
Ithaca 模型的結(jié)構(gòu)可總結(jié)為以下 4 部分:
1. 輸入 (Inputs):將輸入文本作為字符和單詞共同處理,保證 Ithaca 既可以理解單個字符,又可以將其整合為單詞進(jìn)行上下文理解,未知、損壞的單詞用特殊符號「unk」替代;
2. 軀干 (Torso):Ithaca 的軀干采用疊加 Transformer 神經(jīng)網(wǎng)絡(luò)架構(gòu),它使用一種注意力機(jī)制 (attention mechanism) 來衡量輸入的字符、單詞對模型決策過程的影響。
在軀干部分,Ithaca 將輸入文本與位置信息結(jié)合,標(biāo)準(zhǔn)化處理為一個長度等于輸入字符數(shù)的序列,這個序列中每個項(xiàng)目是一個 2,048 維的嵌入向量。該序列被傳輸給 3 個不同的任務(wù) head;
3. 任務(wù)頭(Task heads):Ithaca 有 3 個不同的任務(wù) head,每個 head 由一個淺前饋神經(jīng)網(wǎng)絡(luò)組成,專門處理文本修復(fù)、時(shí)間歸因和地域歸因任務(wù)。
4. 輸出(Outputs):3 個任務(wù) head 分別輸出對應(yīng)結(jié)果。
Ithaca 輸出結(jié)果
文本修復(fù):Ithaca 預(yù)測了 3 個缺失的字符,同時(shí)提供了一套按概率排序的前 20 名解碼預(yù)測 (上圖 a);
地域歸因:Ithaca 把輸入的文字分為 84 個地區(qū),并用地圖和柱狀圖直觀地實(shí)現(xiàn)可能的地區(qū)預(yù)測排名表 (上圖 b);
時(shí)間歸因:為擴(kuò)大時(shí)間歸因任務(wù)的可解釋性,Ithaca 追溯到公元前 800 年到公元 800 年,預(yù)測了日期的分類分布,而不是輸出一個單一的日期值 (上圖 c)。
模型訓(xùn)練結(jié)果
綜合比對:Ithaca 具有優(yōu)越的性能
* 4 個對比機(jī)制
Ancient historian:人類學(xué)者使用訓(xùn)練集來尋找文本的相似之處,與 Ithaca 的結(jié)果對比;
Ancient historian and Ithaca:Ithaca 為金石學(xué)家提供 20 個可能的修復(fù),評估 Ithaca 與人類學(xué)者的協(xié)同性;
Pythia:一個用于文本修復(fù)任務(wù)的序列到序列遞歸神經(jīng)網(wǎng)絡(luò) (a sequence-to-sequence recurrent neural network),評價(jià) Ithaca 的文本修復(fù)性能;
Onomastics:研究人員使用希臘人名在時(shí)間和空間上的已知分布,完成一組文本的時(shí)間和地域歸因,評價(jià) Ithaca 的時(shí)間和地域歸因性能。
* 3 大評價(jià)指標(biāo)
字符錯誤率 (CER, character error rate):評價(jià)文本修復(fù)任務(wù),計(jì)算最高預(yù)測修復(fù)序列和目標(biāo)序列之間的歸一化差異;
top-k accuracy:評價(jià)文本修復(fù)或地域歸因任務(wù),計(jì)算預(yù)測結(jié)果中概率最大的前 k 個結(jié)果包含正確標(biāo)簽的占比,常用 top 1 準(zhǔn)確率;
distance metric (Methods):評價(jià)時(shí)間歸因任務(wù),計(jì)算預(yù)測分布的平均值與真值區(qū)間 (ground-truth interval) 之間的年數(shù)距離。
* 實(shí)驗(yàn)結(jié)果
文本修復(fù)
文本修復(fù)任務(wù)
a:原始銘文;
b:Rhodes-Osborne 修復(fù)后的銘文;
c:Pythia 修復(fù)版,與 Rhodes-Osborne 版有 74 處不匹配;
d:Ithaca 修復(fù)版,與 Rhodes-Osborne 版有 45 處不匹配;
圖中修復(fù)正確的部分由綠色表示,錯誤用紅色突出表示。
原始銘文 (IG II2 116) 缺失 378 個字符,以 Rhodes-Osborne 在 2003 年完成的修復(fù) (圖 b) 為基準(zhǔn),Ithaca 的 CER 為 26.3%,top 1 準(zhǔn)確率達(dá)到 61.8%。
與金石學(xué)家相比,Ithaca 的 CER 低 2.2 倍。Ithaca 的前 20 名預(yù)測準(zhǔn)確率為78.3%,比 Pythia 高 1.5 倍。
2. 地域歸因
地域歸因任務(wù)
地域歸因任務(wù)中,Ithaca 達(dá)到了 70.8% 的 top 1 準(zhǔn)確率和 82.1% 的 top 3 準(zhǔn)確率。上圖表示 Ithaca 將 manumission 銘文正確的歸因到了 Delphi 地區(qū)。
3. 時(shí)間歸因
時(shí)間歸因任務(wù)
對于時(shí)間歸因任務(wù),人類專家預(yù)測的平均值為 144.4,中位數(shù)為 94.5 年,而 Ithaca 的預(yù)測與真值區(qū)間 (ground-truth interval) 平均差距為 29.3 年,中位數(shù)的差距僅為 3 年。
綜合 Ithaca 在三項(xiàng)任務(wù)中的表現(xiàn),結(jié)果整理如下:
相較于人類專家和 Pythia,Ithaca 在 3 大任務(wù)上都展現(xiàn)了優(yōu)越的性能。
當(dāng)人類專家與 Ithaca 協(xié)同時(shí),達(dá)到了 18.3% 的 CER 和 71.7% 的 top 1 準(zhǔn)確率,相比金石學(xué)家單獨(dú)開展工作呈現(xiàn)出 3.2 倍和 2.8 倍的改善,相比 Ithaca 獨(dú)自完成任務(wù)也有顯著改善,展現(xiàn)了 Ithaca 優(yōu)越的協(xié)同性。
Ithaca 的實(shí)驗(yàn)結(jié)果對比
時(shí)間歸因:Ithaca 解決爭議問題
部分銘文的時(shí)間歸因一直存在爭議,傳統(tǒng)時(shí)間歸因采用的 sigma 測年標(biāo)準(zhǔn) (sigma dating criterion) 無法保證準(zhǔn)確,金石學(xué)家無法確定這些銘文是在公元前 446/5 年之前還是之后。
如下圖的銘文,依照傳統(tǒng)方法追溯到公元前 446/5 年,但最近被重新追溯到公元前 424/3 年。
一條爭議銘文(局部)
這組有爭議的銘文存在于 I.PHI 數(shù)據(jù)集中,Ithaca 的時(shí)間歸因結(jié)果推翻了基于 sigma 測年標(biāo)準(zhǔn)的傳統(tǒng)歷史解讀,與新發(fā)現(xiàn)的基礎(chǔ)事實(shí)平均相差 5 年。
由此證明,Ithaca 可以幫助歷史學(xué)家縮小日期范圍,提高歷史事件時(shí)間歸因的精確度。
AI 與人類:1 + 1 > 2 ?
Ithaca 的結(jié)果輸出部分非常有趣,它并不會輸出單一的答案,而是給出多種可能的結(jié)果以供研究人員選擇。
這值得其他 AI 開發(fā)者和使用者借鑒,與其依賴 AI 的輸出,不如利用 AI「探路」,排除一些錯誤答案,拓展自主思考的深度和廣度。
將 AI 的計(jì)算能力與人類的創(chuàng)造性和深度思考相結(jié)合,Ithaca 幫助我們開拓了一種與 AI 攜手合作的范式。
未來,我們期待 AI 與人類學(xué)者協(xié)同并進(jìn),實(shí)現(xiàn)「1+1 > 2」的目標(biāo)。
參考文獻(xiàn):
https://www.nature.com/articles/s41586-022-04448-z
https://www.nature.com/articles/d41586-023-03212-1
—— 完 ——