前言
訓(xùn)練數(shù)據(jù)的質(zhì)量?jī)?yōu)劣,直接影響人工智能(AI)大模型的能力水平。
當(dāng)前,盡管大模型在文本/圖像/視頻等內(nèi)容生成和理解等領(lǐng)域不斷取得新突破,但由于數(shù)據(jù)來(lái)源的透明性不足,虛假信息泛濫和幻覺(jué)問(wèn)題依然存在。
這可能會(huì)導(dǎo)致大模型性能下降,出現(xiàn)數(shù)據(jù)偏差、隱含偏差或行為失真等現(xiàn)象,還可能引發(fā)版權(quán)糾紛等法律問(wèn)題。
近日,來(lái)自麻省理工學(xué)院(MIT)研究團(tuán)隊(duì)及其合作者在提高大模型準(zhǔn)確性、減少偏差方面取得了新進(jìn)展——
他們開(kāi)發(fā)了一種名為 “Data Provenance Explorer” 的結(jié)構(gòu)化審查工具,其通過(guò)自動(dòng)生成詳細(xì)的數(shù)據(jù)來(lái)源卡片,幫助 AI 從業(yè)者選擇更適合其大模型的訓(xùn)練數(shù)據(jù)。
他們對(duì) 1800 多個(gè)文本數(shù)據(jù)集進(jìn)行了系統(tǒng)審查,發(fā)現(xiàn)約 70% 的數(shù)據(jù)集缺乏必要的許可信息,50% 的數(shù)據(jù)集包含錯(cuò)誤信息。
通過(guò)使用這一工具,他們將無(wú)法驗(yàn)證的信息從 72% 降至 30%,明顯降低了數(shù)據(jù)的偏差,有效提高了數(shù)據(jù)的可追溯性和透明度。
相關(guān)研究論文以 “A large-scale audit of dataset licensing and attribution in AI” 為題,已發(fā)表在科學(xué)期刊 Nature Machine Intelligence 上。
該研究為大模型的訓(xùn)練提供了更可靠的數(shù)據(jù)基礎(chǔ),在推動(dòng) AI 領(lǐng)域的法律和倫理研究方面邁出了關(guān)鍵一步。
從72%降至30%,解決未指定許可問(wèn)題
大模型的訓(xùn)練高度依賴(lài)于多樣化的數(shù)據(jù)集,這些數(shù)據(jù)集通常來(lái)源不同,在組合使用的過(guò)程中有關(guān)其來(lái)源和使用限制的重要信息往往會(huì)丟失或被混淆。
例如,在創(chuàng)建 ImageNet 數(shù)據(jù)集時(shí),就通過(guò) Mechanical Turk 雇用了工人,并要求他們?cè)趯D像與概念進(jìn)行匹配時(shí)使用維基百科頁(yè)面作為參考,而從各種網(wǎng)絡(luò)資源中抓取的數(shù)據(jù)集,很難追溯其組成部分的來(lái)源。
該論文的通訊作者 Robert Mahari 表示,“要了解 AI 模型的能力和局限性,最好的方法之一就是了解它是基于什么數(shù)據(jù)訓(xùn)練的。如果數(shù)據(jù)來(lái)源出現(xiàn)錯(cuò)誤歸屬和混淆,就會(huì)產(chǎn)生嚴(yán)重的透明度問(wèn)題?!?/p>
為此,研究人員將數(shù)據(jù)來(lái)源定義為數(shù)據(jù)集的來(lái)源、創(chuàng)建和許可遺產(chǎn)( licensing heritage)以及其特征的組合,并開(kāi)發(fā)了 Data Provenance Explorer,其工作原理是利用算法自動(dòng)生成詳細(xì)的數(shù)據(jù)來(lái)源卡片,涵蓋來(lái)源、許可信息以及潛在的偏差風(fēng)險(xiǎn),從而幫助 AI 從業(yè)者在訓(xùn)練模型時(shí)做出更為明智的決策。核心功能包括:
信息審查:涵蓋標(biāo)識(shí)符信息,連接多個(gè)聚合器(如 Hugging Face、GitHub、Papers with Code等)的元數(shù)據(jù),并提供詳細(xì)的數(shù)據(jù)集特征和來(lái)源信息。
擴(kuò)展來(lái)源元數(shù)據(jù):包括許可證、數(shù)據(jù)源、創(chuàng)作者身份等,考慮了法律和倫理風(fēng)險(xiǎn)參數(shù),如許可證的沿襲、數(shù)據(jù)源、創(chuàng)作者身份和其他開(kāi)發(fā)者采用的優(yōu)先級(jí)。
工具發(fā)布:提供了數(shù)據(jù)探索界面和數(shù)據(jù)存儲(chǔ)庫(kù),支持用戶下載按許可證條件過(guò)濾后的數(shù)據(jù),并生成人類(lèi)可讀的數(shù)據(jù)來(lái)源卡片。
他們對(duì) 1800 多個(gè)文本數(shù)據(jù)集進(jìn)行了系統(tǒng)審查,發(fā)現(xiàn)大多數(shù)數(shù)據(jù)集在許可信息方面存在嚴(yán)重不足。具體表現(xiàn)為:
許可信息缺失:在 GitHub、Hugging Face 和 Papers with Code 等平臺(tái)上,分別有 72%、69% 和 70% 的數(shù)據(jù)集沒(méi)有指定明確的許可證,導(dǎo)致開(kāi)發(fā)者在使用時(shí)面臨法律風(fēng)險(xiǎn)。
許可證標(biāo)注不一致:很多數(shù)據(jù)集的許可證標(biāo)注存在問(wèn)題,平臺(tái)標(biāo)注和作者標(biāo)注往往不一致,增加了使用者的困惑。
許可證種類(lèi)繁多:不同數(shù)據(jù)集使用了各類(lèi)許可證,如 CC-BY-SA 4.0、OpenAI Terms of Use 等,還有大量自定義許可證,這為小型企業(yè)和資源有限的組織帶來(lái)了挑戰(zhàn)。
為解決大量信息的“未指定”許可的問(wèn)題,研究人員使用 Data Provenance Explorer 將未指定許可證的數(shù)據(jù)比例從 72% 降低至 30%,顯著提高了數(shù)據(jù)的可追溯性和透明度。
另外,他們還觀察到,大部分?jǐn)?shù)據(jù)集都集中在北半球,而不同地區(qū)受文化等因素影響,產(chǎn)生的數(shù)據(jù)集應(yīng)用在不同地方可能會(huì)限制其性能。
總之,通過(guò)減少訓(xùn)練數(shù)據(jù)透明性不足導(dǎo)致的模型偏差,Data Provenance Explorer 有助于提高 AI 模型在實(shí)際應(yīng)用中的準(zhǔn)確性和公正性,增強(qiáng)模型在多樣化任務(wù)中的適應(yīng)性。
然而,這一研究也存在一定的局限性。例如,該工具目前主要適用于文本數(shù)據(jù)集,而對(duì)多模態(tài)數(shù)據(jù)(如視頻、語(yǔ)音等)的支持仍有待加強(qiáng)。未來(lái),研究人員希望擴(kuò)大他們的分析,調(diào)查多模態(tài)數(shù)據(jù)的數(shù)據(jù)來(lái)源,并研究作為數(shù)據(jù)源的網(wǎng)站的服務(wù)條款如何在數(shù)據(jù)集中產(chǎn)生影響。
提高合規(guī)性與安全性
隨著 AI 技術(shù)的突破性發(fā)展,確保數(shù)據(jù)集的透明性與合規(guī)性尤為重要。
例如,在醫(yī)療 AI 領(lǐng)域,一些醫(yī)療影像診斷 AI 系統(tǒng)在訓(xùn)練過(guò)程中使用了大量的患者影像數(shù)據(jù),為確保數(shù)據(jù)的合法使用和患者隱私保護(hù),必須對(duì)數(shù)據(jù)采取明確數(shù)據(jù)來(lái)源、獲得患者知情同意、對(duì)數(shù)據(jù)進(jìn)行匿名化處理等措施。
?在 AI 倫理和法規(guī)領(lǐng)域,一些大語(yǔ)言模型在訓(xùn)練過(guò)程中可能會(huì)接觸到大量的個(gè)人文本數(shù)據(jù),如電子郵件、社交媒體帖子等。為了保護(hù)用戶隱私,必須采用區(qū)塊鏈、差分隱私等技術(shù)來(lái)增強(qiáng)數(shù)據(jù)安全性。
近年來(lái),各國(guó)政府也在加強(qiáng)對(duì) AI 數(shù)據(jù)使用的監(jiān)管,出臺(tái)了一系列法規(guī)和政策,要求企業(yè)在收集、使用和存儲(chǔ)數(shù)據(jù)時(shí)必須遵守嚴(yán)格的隱私保護(hù)原則。
Gartner 預(yù)測(cè),到 2026 年,采用 AI TRiSM(AI 信任、風(fēng)險(xiǎn)、安全管理)控制措施的企業(yè)將通過(guò)篩除多達(dá) 80% 的錯(cuò)誤和非法信息來(lái)提高決策的準(zhǔn)確性。
在這項(xiàng)工作中,研究團(tuán)隊(duì)也與監(jiān)管機(jī)構(gòu)接觸,討論他們的發(fā)現(xiàn)以及微調(diào)數(shù)據(jù)對(duì)版權(quán)的獨(dú)特影響,從而全面提高 AI 大模型的合規(guī)性與安全性。