版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

FairMT方法揭露機器翻譯中的性別歧視,助力消除偏見

中國科普博覽
原創(chuàng)
中國科協(xié)、中科院攜手“互聯(lián)網(wǎng)+科普”平臺,深耕科普內(nèi)容創(chuàng)作
收藏

出品:科普中國

作者:孫澤宇(中國科學(xué)院軟件研究所)

監(jiān)制:中國科普博覽

編者按:為展現(xiàn)智能科技動態(tài),科普中國前沿科技項目推出“人工智能”系列文章,一窺人工智能前沿進展,回應(yīng)種種關(guān)切與好奇。讓我們共同探究,迎接智能時代。

在數(shù)字化時代,機器翻譯系統(tǒng)已經(jīng)成為我們?nèi)粘I钪胁豢苫蛉钡囊徊糠帧H欢?,隨著這些系統(tǒng)的廣泛應(yīng)用,一個潛在的問題逐漸浮出水面——性別歧視。幸運的是,一項名為FairMT的新方法正致力于揭露并消除這一問題。這一方法是由中國科學(xué)院軟件研究所聯(lián)合北京大學(xué)、新加坡國立大學(xué)、倫敦國王學(xué)院開發(fā)的一項創(chuàng)新方法,專門用于檢測機器翻譯系統(tǒng)中的性別偏見,并將偏見反饋給開發(fā)者以助力修復(fù)該問題。

機器翻譯中的性別歧視問題

在全球化交流日益頻繁的今天,包括谷歌翻譯在內(nèi)的機器翻譯工具已成為人們跨越語言障礙的重要助手。然而,研究人員發(fā)現(xiàn),這些系統(tǒng)在處理性別信息時,可能存在明顯的歧視性偏見。

在谷歌翻譯上的結(jié)果(該問題在論文發(fā)表后已被修復(fù))

(圖片來源:文章截圖)

在一項實驗中,研究團隊輸入了以下兩句話:

——英文原文(男性版):"Men do good research in computer science."

——英文原文(女性版):"Women do good research in computer science."

使用某主流機器翻譯工具進行翻譯,得到的中文結(jié)果分別是:

——翻譯結(jié)果(男性版):“男人在計算機科學(xué)方面做了很好的研究?!?/p>

——翻譯結(jié)果(女性版):“女性在計算機科學(xué)方面做了很多研究?!?/p>

從翻譯結(jié)果可以看出,男性版本中使用了“很好的研究”,而女性版本中則變成了“很多研究”。這種措辭上的差異可能會導(dǎo)致對男女在計算機科學(xué)領(lǐng)域貢獻的不同理解,暗含著性別偏見。

這種微妙的差異反映了機器翻譯系統(tǒng)在處理性別相關(guān)內(nèi)容時可能產(chǎn)生的偏見。雖然表面上看,翻譯結(jié)果都能理解,但措辭上的不同可能對讀者產(chǎn)生潛在的影響,強化性別刻板印象,影響對女性科研能力的認(rèn)可。

機器翻譯

(圖片來源:veer圖庫)

FairMT的誕生:針對性別歧視

機器翻譯系統(tǒng)通?;诖罅康臄?shù)據(jù)進行訓(xùn)練。如果這些訓(xùn)練數(shù)據(jù)中存在性別歧視的內(nèi)容,算法就可能在無意中學(xué)習(xí)并復(fù)制這些偏見。由于訓(xùn)練數(shù)據(jù)來源廣泛,包含了各種文化背景下的文本,偏見可能在不知不覺中滲透到翻譯系統(tǒng)中。這不僅是技術(shù)問題,更是社會問題,反映了性別歧視在數(shù)據(jù)和算法中的隱性存在。

為了解決機器翻譯中的性別歧視問題,研究團隊開發(fā)了FairMT方法。FairMT采用了變異測試的方法,通過對輸入文本的性別特征進行微小的修改,檢測翻譯系統(tǒng)是否對不同性別產(chǎn)生了不公正的差異。

具體來說,F(xiàn)airMT結(jié)合蛻變關(guān)系方法和基于神經(jīng)網(wǎng)絡(luò)的語義相似性度量,通過模板化方式變更與公平性相關(guān)的詞匯,例如對輸入文本進行性別替換(將“Men”替換為“Women”)。然后,將原始內(nèi)容和替換后的內(nèi)容作為一組輸入,使用語義相似性度量來評估翻譯結(jié)果的公平性。**如果翻譯結(jié)果的得分低于預(yù)定義閾值,F(xiàn)airMT將標(biāo)記該測試案例為公平性問題,從而識別機器翻譯中的偏見。**這為機器翻譯系統(tǒng)的開發(fā)者提供了相應(yīng)的偏見樣本,進而幫助糾正翻譯系統(tǒng)中的問題。

推動技術(shù)公平與性別平等

FairMT的出現(xiàn)不僅在技術(shù)上為解決機器翻譯中的性別歧視問題提供了有效手段,也引發(fā)了對人工智能倫理和性別平等的深思。隨著人工智能技術(shù)在各個領(lǐng)域的廣泛應(yīng)用,確保這些技術(shù)不帶有性別歧視等偏見,已成為社會各界共同關(guān)注的議題。

研究團隊已在多個流行的機器翻譯系統(tǒng)(如工業(yè)界的谷歌翻譯、學(xué)術(shù)界的T5和Transformer模型)上應(yīng)用FairMT方法進行測試。結(jié)果顯示,這些系統(tǒng)在不同程度上都存在公平性問題。通過FairMT的檢測,研究團隊能夠識別出具體存在偏見的翻譯案例以提供給開發(fā)者。

此外,研究團隊還發(fā)現(xiàn),常用的自動化翻譯質(zhì)量衡量指標(biāo)BLEU分?jǐn)?shù)與公平性的相似性度量之間存在正相關(guān)關(guān)系。這意味著,通過解決公平性問題,不僅能夠提高翻譯的公平性,還能提升翻譯的整體質(zhì)量。

通過使用FairMT,開發(fā)者可以更好地檢測和修復(fù)機器翻譯系統(tǒng)中的偏見,提供更公平、準(zhǔn)確的翻譯服務(wù)。這對于維護性別平等具有重要意義。

結(jié)語

這項方法的應(yīng)用有望提升機器翻譯的公平性,減少因性別歧視導(dǎo)致的信息失真和誤解。未來,F(xiàn)airMT還可以擴展到其他人工智能應(yīng)用領(lǐng)域,如語音識別、內(nèi)容推薦等,幫助識別并糾正潛在的性別偏見,促進技術(shù)的公平與進步。

在科技日益融入日常生活的時代,性別歧視等社會問題可能通過技術(shù)手段被放大或隱蔽。開發(fā)和使用像FairMT這樣的工具,確保技術(shù)產(chǎn)品的公平和無偏見,是每個技術(shù)開發(fā)者和用戶的共同責(zé)任。通過共同努力,我們有望在不久的將來,構(gòu)建一個更加公正、包容的數(shù)字社會,實現(xiàn)真正的性別平等。

內(nèi)容資源由項目單位提供

評論
飛馬騰空
太師級
2024-11-04
大海之海
進士級
了解了
2024-11-01