版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

[科普中國]-跨語檢索

科學百科
原創(chuàng)
科學百科為用戶提供權(quán)威科普內(nèi)容,打造知識科普陣地
收藏

跨語檢索,或稱“跨語資訊檢索”(Cross-Language Information Retrieval,CLIR),其定義采用 Oard, D. W.在1997年發(fā)表的文章《Cross-Language Information Retrieval Defined》??缯Z檢索意指使用者使用某種自然語言的檢索詞匯檢索由另一種語言表達的文件。1

舉例來說,使用者使用(自己熟悉的)中文產(chǎn)生一組檢索詞匯進行檢索,而其檢索結(jié)果皆以(使用者完全不懂或不熟悉)的日文,所撰寫的文件。

起源與發(fā)展1969年,Salton,G.發(fā)表《Automatic processing of foreign language documents》文章。Salton 以智能文本信息檢索系統(tǒng)當作實驗對象,智能檢索系統(tǒng)背后有多國語言語料庫的支援,借由該系統(tǒng),Salton 使用英文為主要檢索詞匯的語言,檢索德文的文件和資料,反之亦然。實驗結(jié)果發(fā)現(xiàn),采用全自動文件處理方法(fully automatic text processing methods)的 SMART 文件檢索系統(tǒng)可以用相對簡單而有效率的方式,進行文獻索引、分類、搜尋,和檢索等工作。這也是文獻中,第一次提到跨語檢索概念的文章,不過這篇文章尚未正式使用跨語檢索或跨語資訊檢索一詞。

1992年,美國國家標準和科技機構(gòu) (National Institute of Standards and Technology, 簡稱 NIST)和美國情報局先進研發(fā)活動 (Advanced Research and Development Activity center of the U.S. Department of Defense, 簡稱 DARDA ] 合作舉辦“文字檢索會議”(The Text REtrieval Conference, TREC),一開始是附屬于 TIPSTER Text program底下的計劃,從1992年之后,每年都會舉辦一次TREC會議。TREC 會議成立目的是輔導(dǎo)與支援資訊檢索相關(guān)研究,提供標準測試集協(xié)助研究者進行測試等。

1996年,美國計算機協(xié)會(Association of Computing Machinery,ACM)在瑞士所舉辦的SIGIR-96會議中,首次出現(xiàn)以跨語檢索為研究主題的研討會,與跨語檢索相關(guān)的討論,可在這本會議論文集 《Proceedings of the 19th annual international ACM SIGIR conference on Research and development in information retrieval》找到。

1998年,召開第一次 NII Test Collection for IR Systems program 會議(NTCIR)。NTCIR會議主要是由日本學術(shù)振興會(JSPS)、日本國家科學資訊系統(tǒng)中心(NACSIS),以及日本國立情報學研究所(NII) 共同合作舉辦。其目的是希望,在資訊檢索與自然語言檢索的研究領(lǐng)域中,能發(fā)展出以日文為主的標準測試集。至今,已發(fā)展出NTCIR1~6的文件集。

2000年,歐盟成立“跨語言資訊檢索論壇”(Cross Language Evaluation Forum,CLEF) ,每年定期舉辦跨語檢索研討會,并且推動跨語檢索技術(shù)評比。目前有文字資訊檢索評比,或稱文本信息檢索(text retrieval)評比和跨語圖片資訊檢索評比,或稱跨語圖像檢索(Cross-Language Image Retrieval] )項目,除了跨語檢索技術(shù)評比之外,尚包括發(fā)展以歐洲語系為主的單語資訊檢索系統(tǒng)(monolingual information retrieval system)的基礎(chǔ)建設(shè),包含測試 (testing)和評鑒(evaluating)等工作,該組織也包含在歐盟的數(shù)位圖書館(digital library)計劃中。

特征跨語檢索的特征,根據(jù)陳信希教授在2002年的《跨語檢資訊檢索:理論、技術(shù)與應(yīng)用》這篇文章指出,共具有六項特征,將內(nèi)容統(tǒng)整如下:

檢索詞匯的歧義性(ambiguity):翻譯檢索詞匯的過程,不只會遇到檢索詞匯一詞多義的情形,翻譯后的目標檢索詞匯(target query)的多義性(polysemy)也是需要解決的問題之一。

檢索詞匯(query)和文件(document)分屬不同語言:其為跨語檢索最主要的特征。檢索詞匯和文件間必須要有特定的對應(yīng)關(guān)系,翻譯技術(shù)是建立其關(guān)系的重要運算之一。

檢索詞太短:跨語檢索者所輸入的檢索詞匯往往太簡短,因而造成翻譯和歧義性的困難度。

語言識別(language identification)困難:如果跨語檢索系統(tǒng)無法辨識該檢索詞匯是何種語言,如中文、英文、拉丁文和俄文等,就無法檢索出使用者所需要的資料。

斷詞和書寫符號的問題:因為中文的詞與詞之間沒有明顯的分隔符號,因此會有斷詞(segmentation)的問題。而俄文、西班牙文等語文,電腦沒有自動產(chǎn)生文字的功能,如當使用者欲于搜索引擎或文件中,輸入俄文,必須利用其他的應(yīng)用軟件,才能產(chǎn)生俄文,而不像英文或中文可直接從輸入法中選擇。

輸出結(jié)果的呈現(xiàn)(visualization):包含檢索結(jié)果得到的多語言文件要如何合并,界面該如何呈現(xiàn),才能使檢索者一目了然等問題。

使用技術(shù)根據(jù)陳信希和陳光華的文章,目前跨語檢索相關(guān)技術(shù),可分成三大類,分述如下:2

翻譯檢索詞匯:此法視處理檢索詞匯的方式,又區(qū)分成兩種方法,一種是控制詞匯,另一種是自由詞匯。

控制詞匯:使用控制詞匯進行檢索時,由于為系統(tǒng)內(nèi)定的詞匯,所以,雖然使得檢索的過程比較順利,可是能找到的資料有限。

自由詞匯:可分成三種策略,分別是知識庫策略、語料庫策略和混合式策略。

知識庫策略:一種是采用辭典的方法,另一種則是采用索引典策略的知識架構(gòu)。

語料庫策略:此法比較復(fù)雜,包含了四種方法,分別是“詞匯對列方式”、“文句對列方式”、“文件對列”和“不采用對列方式”。

翻譯文件:此法可分成兩種,一種為文本的翻譯,另一種為特征向量的翻譯。

不翻譯。

參見資訊檢索(information retrieval)

文本信息檢索(text retrieval)

圖像檢索(image retrieval)

單語資訊檢索(monolingual retrieval)

美國計算機協(xié)會(ACM)

本詞條內(nèi)容貢獻者為:

黃倫先 - 副教授 - 西南大學