版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

利好AI大模型,對“不合適”訓(xùn)練數(shù)據(jù)說NO!

學(xué)術(shù)頭條
一起見證人類探索征途上的每一個重大突破。
收藏

前言

訓(xùn)練數(shù)據(jù)的質(zhì)量優(yōu)劣,直接影響人工智能(AI)大模型的能力水平。

當(dāng)前,盡管大模型在文本/圖像/視頻等內(nèi)容生成和理解等領(lǐng)域不斷取得新突破,但由于數(shù)據(jù)來源的透明性不足,虛假信息泛濫和幻覺問題依然存在。

這可能會導(dǎo)致大模型性能下降,出現(xiàn)數(shù)據(jù)偏差、隱含偏差或行為失真等現(xiàn)象,還可能引發(fā)版權(quán)糾紛等法律問題。

近日,來自麻省理工學(xué)院(MIT)研究團(tuán)隊及其合作者在提高大模型準(zhǔn)確性、減少偏差方面取得了新進(jìn)展——

他們開發(fā)了一種名為 “Data Provenance Explorer” 的結(jié)構(gòu)化審查工具,其通過自動生成詳細(xì)的數(shù)據(jù)來源卡片,幫助 AI 從業(yè)者選擇更適合其大模型的訓(xùn)練數(shù)據(jù)。

他們對 1800 多個文本數(shù)據(jù)集進(jìn)行了系統(tǒng)審查,發(fā)現(xiàn)約 70% 的數(shù)據(jù)集缺乏必要的許可信息,50% 的數(shù)據(jù)集包含錯誤信息。

通過使用這一工具,他們將無法驗(yàn)證的信息從 72% 降至 30%,明顯降低了數(shù)據(jù)的偏差,有效提高了數(shù)據(jù)的可追溯性和透明度。

圖片

相關(guān)研究論文以 “A large-scale audit of dataset licensing and attribution in AI” 為題,已發(fā)表在科學(xué)期刊 Nature Machine Intelligence 上。

該研究為大模型的訓(xùn)練提供了更可靠的數(shù)據(jù)基礎(chǔ),在推動 AI 領(lǐng)域的法律和倫理研究方面邁出了關(guān)鍵一步。

從72%降至30%,解決未指定許可問題

大模型的訓(xùn)練高度依賴于多樣化的數(shù)據(jù)集,這些數(shù)據(jù)集通常來源不同,在組合使用的過程中有關(guān)其來源和使用限制的重要信息往往會丟失或被混淆。

例如,在創(chuàng)建 ImageNet 數(shù)據(jù)集時,就通過 Mechanical Turk 雇用了工人,并要求他們在將圖像與概念進(jìn)行匹配時使用維基百科頁面作為參考,而從各種網(wǎng)絡(luò)資源中抓取的數(shù)據(jù)集,很難追溯其組成部分的來源。

該論文的通訊作者 Robert Mahari 表示,“要了解 AI 模型的能力和局限性,最好的方法之一就是了解它是基于什么數(shù)據(jù)訓(xùn)練的。如果數(shù)據(jù)來源出現(xiàn)錯誤歸屬和混淆,就會產(chǎn)生嚴(yán)重的透明度問題?!?/p>

為此,研究人員將數(shù)據(jù)來源定義為數(shù)據(jù)集的來源、創(chuàng)建和許可遺產(chǎn)( licensing heritage)以及其特征的組合,并開發(fā)了 Data Provenance Explorer,其工作原理是利用算法自動生成詳細(xì)的數(shù)據(jù)來源卡片,涵蓋來源、許可信息以及潛在的偏差風(fēng)險,從而幫助 AI 從業(yè)者在訓(xùn)練模型時做出更為明智的決策。核心功能包括:

信息審查:涵蓋標(biāo)識符信息,連接多個聚合器(如 Hugging Face、GitHub、Papers with Code等)的元數(shù)據(jù),并提供詳細(xì)的數(shù)據(jù)集特征和來源信息。

擴(kuò)展來源元數(shù)據(jù):包括許可證、數(shù)據(jù)源、創(chuàng)作者身份等,考慮了法律和倫理風(fēng)險參數(shù),如許可證的沿襲、數(shù)據(jù)源、創(chuàng)作者身份和其他開發(fā)者采用的優(yōu)先級。

工具發(fā)布:提供了數(shù)據(jù)探索界面和數(shù)據(jù)存儲庫,支持用戶下載按許可證條件過濾后的數(shù)據(jù),并生成人類可讀的數(shù)據(jù)來源卡片。

他們對 1800 多個文本數(shù)據(jù)集進(jìn)行了系統(tǒng)審查,發(fā)現(xiàn)大多數(shù)數(shù)據(jù)集在許可信息方面存在嚴(yán)重不足。具體表現(xiàn)為:

許可信息缺失:在 GitHub、Hugging Face 和 Papers with Code 等平臺上,分別有 72%、69% 和 70% 的數(shù)據(jù)集沒有指定明確的許可證,導(dǎo)致開發(fā)者在使用時面臨法律風(fēng)險。

許可證標(biāo)注不一致:很多數(shù)據(jù)集的許可證標(biāo)注存在問題,平臺標(biāo)注和作者標(biāo)注往往不一致,增加了使用者的困惑。

許可證種類繁多:不同數(shù)據(jù)集使用了各類許可證,如 CC-BY-SA 4.0、OpenAI Terms of Use 等,還有大量自定義許可證,這為小型企業(yè)和資源有限的組織帶來了挑戰(zhàn)。

為解決大量信息的“未指定”許可的問題,研究人員使用 Data Provenance Explorer 將未指定許可證的數(shù)據(jù)比例從 72% 降低至 30%,顯著提高了數(shù)據(jù)的可追溯性和透明度。

另外,他們還觀察到,大部分?jǐn)?shù)據(jù)集都集中在北半球,而不同地區(qū)受文化等因素影響,產(chǎn)生的數(shù)據(jù)集應(yīng)用在不同地方可能會限制其性能。

總之,通過減少訓(xùn)練數(shù)據(jù)透明性不足導(dǎo)致的模型偏差,Data Provenance Explorer 有助于提高 AI 模型在實(shí)際應(yīng)用中的準(zhǔn)確性和公正性,增強(qiáng)模型在多樣化任務(wù)中的適應(yīng)性。

然而,這一研究也存在一定的局限性。例如,該工具目前主要適用于文本數(shù)據(jù)集,而對多模態(tài)數(shù)據(jù)(如視頻、語音等)的支持仍有待加強(qiáng)。未來,研究人員希望擴(kuò)大他們的分析,調(diào)查多模態(tài)數(shù)據(jù)的數(shù)據(jù)來源,并研究作為數(shù)據(jù)源的網(wǎng)站的服務(wù)條款如何在數(shù)據(jù)集中產(chǎn)生影響。

提高合規(guī)性與安全性

隨著 AI 技術(shù)的突破性發(fā)展,確保數(shù)據(jù)集的透明性與合規(guī)性尤為重要。

例如,在醫(yī)療 AI 領(lǐng)域,一些醫(yī)療影像診斷 AI 系統(tǒng)在訓(xùn)練過程中使用了大量的患者影像數(shù)據(jù),為確保數(shù)據(jù)的合法使用和患者隱私保護(hù),必須對數(shù)據(jù)采取明確數(shù)據(jù)來源、獲得患者知情同意、對數(shù)據(jù)進(jìn)行匿名化處理等措施。

?在 AI 倫理和法規(guī)領(lǐng)域,一些大語言模型在訓(xùn)練過程中可能會接觸到大量的個人文本數(shù)據(jù),如電子郵件、社交媒體帖子等。為了保護(hù)用戶隱私,必須采用區(qū)塊鏈、差分隱私等技術(shù)來增強(qiáng)數(shù)據(jù)安全性。

近年來,各國政府也在加強(qiáng)對 AI 數(shù)據(jù)使用的監(jiān)管,出臺了一系列法規(guī)和政策,要求企業(yè)在收集、使用和存儲數(shù)據(jù)時必須遵守嚴(yán)格的隱私保護(hù)原則。

Gartner 預(yù)測,到 2026 年,采用 AI TRiSM(AI 信任、風(fēng)險、安全管理)控制措施的企業(yè)將通過篩除多達(dá) 80% 的錯誤和非法信息來提高決策的準(zhǔn)確性。

在這項工作中,研究團(tuán)隊也與監(jiān)管機(jī)構(gòu)接觸,討論他們的發(fā)現(xiàn)以及微調(diào)數(shù)據(jù)對版權(quán)的獨(dú)特影響,從而全面提高 AI 大模型的合規(guī)性與安全性。

評論
科普青云
貢士級
AI之所以強(qiáng)大,關(guān)鍵在于訓(xùn)練,而訓(xùn)練關(guān)鍵在數(shù)據(jù),數(shù)據(jù)篩查,提高數(shù)據(jù)的有效性對于AI訓(xùn)練十分重要,那么對海量數(shù)據(jù)的有效篩查的工具也就足以說明其重要性了。
2024-09-24
東明縣陸圈鎮(zhèn) 油梅霞
學(xué)士級
定期對訓(xùn)練數(shù)據(jù)進(jìn)行更新,以確保其時效性和準(zhǔn)確性。此外,我們還可以利用在線學(xué)習(xí)等技術(shù),讓模型能夠?qū)崟r地從新數(shù)據(jù)中學(xué)習(xí)和更新。
2024-09-24
心靈醫(yī)生—李四保
學(xué)士級
訓(xùn)練數(shù)據(jù)的質(zhì)量優(yōu)劣,直接影響人工智能AI大模型的能力水平
2024-09-24