叼嘿软件载APP下载安装,国产福利无码一区在线,欧美一区二区三区成人片在线

*銘文、碑刻是過去文明的思想、文化和語言的體現(xiàn)。金石學(xué)家破譯千年前的密碼，需要完成文本修復(fù)、時(shí)間歸因和地域歸因三大任務(wù)。

主流的研究方式是「字符串匹配」，即憑借記憶或查詢語料庫匹配字型相似的銘文，這導(dǎo)致了結(jié)果的混淆和誤判。

為此，DeepMind 和威尼斯福斯卡里大學(xué)聯(lián)合開發(fā)了 Ithaca，利用 AI 幫助人類學(xué)者破譯希臘銘文。*

作者 | 加零

編輯 | 雪菜、三羊

金石學(xué)，是研究金石銘文、碑刻和古代銘文的學(xué)科，連接著過去文明的思想、文化和語言。目前，學(xué)界面臨著一個重要問題：如何深入研究和理解這些遺產(chǎn)？

通常意義上，解讀銘文碑刻需要金石學(xué)家完成以下 3 個基本任務(wù)：

文本修復(fù) (text restoration)：補(bǔ)充文本中缺失的部分；

時(shí)間歸因 (chronological attribution)：確定銘文寫作的時(shí)間；

地域歸因 (geographical attribution)：確定銘文寫作的初始地點(diǎn)。

完成這些任務(wù)，金石學(xué)家需要結(jié)合上下文和現(xiàn)有語料庫，開展大量比對研究。雖然數(shù)字語料庫的出現(xiàn)能一定程度減少研究人員的負(fù)擔(dān)，但其采取的字符串匹配方式，往往導(dǎo)致結(jié)果的混淆和誤判。同時(shí)由于年代久遠(yuǎn)，銘文多有受損和遺失，使得任務(wù)愈發(fā)復(fù)雜。

銘文修復(fù)圖示

而 AI 善于發(fā)現(xiàn)并運(yùn)用復(fù)雜的統(tǒng)計(jì)模式，對人難以處理的大批量數(shù)據(jù)進(jìn)行分析。因此，DeepMind 和威尼斯福斯卡里大學(xué) (Ca’ Foscari University of Venice) 的研究者聯(lián)合開發(fā)了 Ithaca，旨在協(xié)助金石學(xué)家進(jìn)行文本修復(fù)、時(shí)間歸因和地域歸因的工作。

實(shí)驗(yàn)證實(shí)，Ithaca 文本修復(fù)工作的準(zhǔn)確率達(dá)到 62%，時(shí)間歸因誤差在 30 年內(nèi)，地域歸因準(zhǔn)確率達(dá)到 71%，且具有很好的協(xié)同性。相關(guān)論文已發(fā)表于「Nature」。

相關(guān)成果發(fā)表在「Nature」

獲取論文：

https://www.nature.com/articles/s41586-022-04448-z

Ithaca 的相關(guān)代碼已開源在 GitHub 平臺，金石學(xué)家也可利用公共界面開展研究。

源代碼：https://github.com/deepmind/Ithaca

公共界面：https://ithaca.deepmind.com/

實(shí)驗(yàn)過程

數(shù)據(jù)集：機(jī)器可操作銘文集 I.PHI

研究者們基于帕卡德人文研究所的可搜索希臘銘文公共數(shù)據(jù)集 PHI 開展研究。

注：PHI 全稱 The Packard Humanities Institute’s Searchable Greek Inscriptions public dataset

為了便于機(jī)器操作，研究者們對 PHI 中的文本進(jìn)行過濾，為選擇的文本分配數(shù)字 ID、相應(yīng)的標(biāo)注地點(diǎn)和時(shí)間信息，最終得到 I.PHI 數(shù)據(jù)集。

I.PHI 數(shù)據(jù)集是目前最大的機(jī)器可操作銘文數(shù)據(jù)集，包含 78,608 個銘文。

I.PHI 數(shù)據(jù)集示例

算法訓(xùn)練：針對 3 大任務(wù)開展訓(xùn)練

文本修復(fù)：采用交叉熵?fù)p失函數(shù)，掩蓋輸入文本的部分內(nèi)容，訓(xùn)練 Ithaca 模型預(yù)測被掩蓋的字符；

時(shí)間歸因：以 10 年為間隔，Ithaca 將公元前后 800 年離散為具有相等概率的時(shí)間段，稱為目標(biāo)概率分布。采用 Kullback-Leibler 散度，最小化預(yù)測概率分布和目標(biāo)概率分布之間的差異；

地域歸因：使用交叉熵?fù)p失函數(shù)，將地域區(qū)域元數(shù)據(jù)作為目標(biāo)標(biāo)簽，應(yīng)用平滑系數(shù) 10% 的標(biāo)簽平滑技術(shù)避免過擬合。

基于此，Ithaca 在谷歌云平臺上的 128 個 TPU v4 pod 上開展了一周的訓(xùn)練，batch size 為 8,192 篇文本，使用 LAMB 優(yōu)化器以 3 × 10-4 的學(xué)習(xí)率優(yōu)化 Ithaca 參數(shù)。

模型結(jié)構(gòu)：Ithaca 模型包括 4 部分

Ithaca 模型任務(wù)處理流程

Ithaca 模型的結(jié)構(gòu)可總結(jié)為以下 4 部分：

1. 輸入 (Inputs)：將輸入文本作為字符和單詞共同處理，保證 Ithaca 既可以理解單個字符，又可以將其整合為單詞進(jìn)行上下文理解，未知、損壞的單詞用特殊符號「unk」替代；

2. 軀干 (Torso)：Ithaca 的軀干采用疊加 Transformer 神經(jīng)網(wǎng)絡(luò)架構(gòu)，它使用一種注意力機(jī)制 (attention mechanism) 來衡量輸入的字符、單詞對模型決策過程的影響。

在軀干部分，Ithaca 將輸入文本與位置信息結(jié)合，標(biāo)準(zhǔn)化處理為一個長度等于輸入字符數(shù)的序列，這個序列中每個項(xiàng)目是一個 2,048 維的嵌入向量。該序列被傳輸給 3 個不同的任務(wù) head；

3. 任務(wù)頭(Task heads)：Ithaca 有 3 個不同的任務(wù) head，每個 head 由一個淺前饋神經(jīng)網(wǎng)絡(luò)組成，專門處理文本修復(fù)、時(shí)間歸因和地域歸因任務(wù)。

4. 輸出(Outputs)：3 個任務(wù) head 分別輸出對應(yīng)結(jié)果。

Ithaca 輸出結(jié)果

文本修復(fù)：Ithaca 預(yù)測了 3 個缺失的字符，同時(shí)提供了一套按概率排序的前 20 名解碼預(yù)測 (上圖 a)；

地域歸因：Ithaca 把輸入的文字分為 84 個地區(qū)，并用地圖和柱狀圖直觀地實(shí)現(xiàn)可能的地區(qū)預(yù)測排名表 (上圖 b)；

時(shí)間歸因：為擴(kuò)大時(shí)間歸因任務(wù)的可解釋性，Ithaca 追溯到公元前 800 年到公元 800 年，預(yù)測了日期的分類分布，而不是輸出一個單一的日期值 (上圖 c)。

模型訓(xùn)練結(jié)果

綜合比對：Ithaca 具有優(yōu)越的性能

* 4 個對比機(jī)制

Ancient historian：人類學(xué)者使用訓(xùn)練集來尋找文本的相似之處，與 Ithaca 的結(jié)果對比；

Ancient historian and Ithaca：Ithaca 為金石學(xué)家提供 20 個可能的修復(fù)，評估 Ithaca 與人類學(xué)者的協(xié)同性；

Pythia：一個用于文本修復(fù)任務(wù)的序列到序列遞歸神經(jīng)網(wǎng)絡(luò) (a sequence-to-sequence recurrent neural network)，評價(jià) Ithaca 的文本修復(fù)性能；

Onomastics：研究人員使用希臘人名在時(shí)間和空間上的已知分布，完成一組文本的時(shí)間和地域歸因，評價(jià) Ithaca 的時(shí)間和地域歸因性能。

* 3 大評價(jià)指標(biāo)

字符錯誤率 (CER, character error rate)：評價(jià)文本修復(fù)任務(wù)，計(jì)算最高預(yù)測修復(fù)序列和目標(biāo)序列之間的歸一化差異；

top-k accuracy：評價(jià)文本修復(fù)或地域歸因任務(wù)，計(jì)算預(yù)測結(jié)果中概率最大的前 k 個結(jié)果包含正確標(biāo)簽的占比，常用 top 1 準(zhǔn)確率；

distance metric (Methods)：評價(jià)時(shí)間歸因任務(wù)，計(jì)算預(yù)測分布的平均值與真值區(qū)間 (ground-truth interval) 之間的年數(shù)距離。

* 實(shí)驗(yàn)結(jié)果

文本修復(fù)

文本修復(fù)任務(wù)

a：原始銘文；

b：Rhodes-Osborne 修復(fù)后的銘文；

c：Pythia 修復(fù)版，與 Rhodes-Osborne 版有 74 處不匹配；

d：Ithaca 修復(fù)版，與 Rhodes-Osborne 版有 45 處不匹配；

圖中修復(fù)正確的部分由綠色表示，錯誤用紅色突出表示。

原始銘文 (IG II2 116) 缺失 378 個字符，以 Rhodes-Osborne 在 2003 年完成的修復(fù) (圖 b) 為基準(zhǔn)，Ithaca 的 CER 為 26.3%，top 1 準(zhǔn)確率達(dá)到 61.8%。

與金石學(xué)家相比，Ithaca 的 CER 低 2.2 倍。Ithaca 的前 20 名預(yù)測準(zhǔn)確率為78.3%，比 Pythia 高 1.5 倍。

2. 地域歸因

地域歸因任務(wù)

地域歸因任務(wù)中，Ithaca 達(dá)到了 70.8% 的 top 1 準(zhǔn)確率和 82.1% 的 top 3 準(zhǔn)確率。上圖表示 Ithaca 將 manumission 銘文正確的歸因到了 Delphi 地區(qū)。

3. 時(shí)間歸因

時(shí)間歸因任務(wù)

對于時(shí)間歸因任務(wù)，人類專家預(yù)測的平均值為 144.4，中位數(shù)為 94.5 年，而 Ithaca 的預(yù)測與真值區(qū)間 (ground-truth interval) 平均差距為 29.3 年，中位數(shù)的差距僅為 3 年。

綜合 Ithaca 在三項(xiàng)任務(wù)中的表現(xiàn)，結(jié)果整理如下：

相較于人類專家和 Pythia，Ithaca 在 3 大任務(wù)上都展現(xiàn)了優(yōu)越的性能。

當(dāng)人類專家與 Ithaca 協(xié)同時(shí)，達(dá)到了 18.3% 的 CER 和 71.7% 的 top 1 準(zhǔn)確率，相比金石學(xué)家單獨(dú)開展工作呈現(xiàn)出 3.2 倍和 2.8 倍的改善，相比 Ithaca 獨(dú)自完成任務(wù)也有顯著改善，展現(xiàn)了 Ithaca 優(yōu)越的協(xié)同性。

Ithaca 的實(shí)驗(yàn)結(jié)果對比

時(shí)間歸因：Ithaca 解決爭議問題

部分銘文的時(shí)間歸因一直存在爭議，傳統(tǒng)時(shí)間歸因采用的 sigma 測年標(biāo)準(zhǔn) (sigma dating criterion) 無法保證準(zhǔn)確，金石學(xué)家無法確定這些銘文是在公元前 446/5 年之前還是之后。

如下圖的銘文，依照傳統(tǒng)方法追溯到公元前 446/5 年，但最近被重新追溯到公元前 424/3 年。

一條爭議銘文（局部）

這組有爭議的銘文存在于 I.PHI 數(shù)據(jù)集中，Ithaca 的時(shí)間歸因結(jié)果推翻了基于 sigma 測年標(biāo)準(zhǔn)的傳統(tǒng)歷史解讀，與新發(fā)現(xiàn)的基礎(chǔ)事實(shí)平均相差 5 年。

由此證明，Ithaca 可以幫助歷史學(xué)家縮小日期范圍，提高歷史事件時(shí)間歸因的精確度。

AI 與人類：1 + 1 > 2 ?

Ithaca 的結(jié)果輸出部分非常有趣，它并不會輸出單一的答案，而是給出多種可能的結(jié)果以供研究人員選擇。

這值得其他 AI 開發(fā)者和使用者借鑒，與其依賴 AI 的輸出，不如利用 AI「探路」，排除一些錯誤答案，拓展自主思考的深度和廣度。

將 AI 的計(jì)算能力與人類的創(chuàng)造性和深度思考相結(jié)合，Ithaca 幫助我們開拓了一種與 AI 攜手合作的范式。

未來，我們期待 AI 與人類學(xué)者協(xié)同并進(jìn)，實(shí)現(xiàn)「1+1 > 2」的目標(biāo)。

參考文獻(xiàn)：

https://www.nature.com/articles/s41586-022-04448-z

https://www.nature.com/articles/d41586-023-03212-1

—— 完 ——

當(dāng)古老歷史遇到前沿科技：助力破譯希臘銘文，實(shí)現(xiàn)AI與人文共舞？

當(dāng)古老歷史遇到前沿科技：助力破譯希臘銘文，實(shí)現(xiàn)AI與人文共舞？