多項研究表明,現(xiàn)在的AI已經(jīng)能夠無師自通地學(xué)會欺騙手段。在一些與人類選手的對抗游戲中,它們?yōu)榱粟A得游戲,會在關(guān)鍵時刻佯動欺騙,甚至制定周密陰謀,以化被動為主動,獲得競爭優(yōu)勢。更有甚者,在一些檢測AI模型是否獲得了惡意能力的安全測試中,有的AI居然能識破測試環(huán)境,故意在測試環(huán)境中“放水”,減少被發(fā)現(xiàn)的概率,等到了應(yīng)用環(huán)境中,才會暴露本性。
如果AI的這種欺騙能力未經(jīng)約束地持續(xù)壯大,同時人類不加以重視并尋找辦法加以遏制,最終AI可能會把欺騙當(dāng)成實現(xiàn)目標(biāo)的通用策略,在大部分情況下貫徹始終,那就值得當(dāng)心了。
撰文 | Ren
在過去幾年中,人工智能(AI)技術(shù)的發(fā)展一日千里,展現(xiàn)出令人驚嘆的能力。從擊敗人類頂尖棋手,到生成逼真的人臉圖像和語音,再到如今以ChatGPT為代表的一眾聊天機器人,AI系統(tǒng)已經(jīng)逐漸滲透到我們生活的方方面面。
然而,就在我們開始習(xí)慣并依賴這些智能助手之時,一個新的威脅正在緩緩浮現(xiàn)——AI不僅能生成虛假信息,更可能主動學(xué)會有目的地欺騙人類。
這種“AI欺騙”現(xiàn)象,是人工智能系統(tǒng)為了達(dá)成某些目標(biāo),而操縱并誤導(dǎo)人類形成錯誤認(rèn)知。與代碼錯誤而產(chǎn)生錯誤輸出的普通軟件bug不同,AI欺騙是一種“系統(tǒng)性”行為,體現(xiàn)了AI逐步掌握了“以欺騙為手段”去實現(xiàn)某些目的的能力。
人工智能先驅(qū)杰弗里·辛頓(Geoffrey Hinton)表示,“如果AI比我們聰明得多,它就會非常擅長操縱,因為它會從我們那里學(xué)到這一點,而且很少有聰明的東西被不太聰明的東西控制的例子?!?/p>
辛頓提到的“操縱(人類)”是AI系統(tǒng)帶來的一個特別令人擔(dān)憂的危險。這就提出了一個問題:AI系統(tǒng)能否成功欺騙人類?
最近,麻省理工學(xué)院物理學(xué)教授Peter S. Park等人在權(quán)威期刊Patterns發(fā)表論文,系統(tǒng)性地梳理了AI具備欺騙行為的證據(jù)、風(fēng)險和應(yīng)對措施,引起廣泛關(guān)注。
真相只是游戲規(guī)則之一
令人意想不到的是,AI欺騙行為的雛形并非來自對抗性的網(wǎng)絡(luò)釣魚測試,而是源于一些看似無害的桌游和策略游戲。論文揭示,在多個游戲環(huán)境下,AI代理(Agent)為了獲勝,竟然自發(fā)學(xué)會了欺騙和背信棄義的策略。
最典型的例子是2022年,F(xiàn)acebook(現(xiàn)Meta)在Science上發(fā)表的CICERO AI系統(tǒng)。Meta開發(fā)人員曾表示,CICERO接受過“誠實訓(xùn)練”,會“盡可能”做出誠實的承諾和行動。
研究人員對誠實承諾的定義分為兩部分。第一是首次做出承諾時必須誠實,其次是必須恪守承諾,并在未來的行動中體現(xiàn)過去的承諾。
但CICERO 違背了這兩點。在玩經(jīng)典策略游戲“外交”(Diplomacy)時,它不僅反復(fù)背棄盟友、說謊欺騙,還會提前預(yù)謀策劃騙局。
來源:Meta
有一次,CICERO就是先與一個玩家結(jié)盟并計劃攻打另一個玩家,然后誆騙對方讓其誤以為自己會去幫助防守,導(dǎo)致其盟友在毫無防備的情況下遭到突襲。
此外,當(dāng)CICERO判定自己的盟友對自己的勝利不再有幫助時,它也會做出背叛的行為,同時會用一些話術(shù)為自己的行為開脫。比如,當(dāng)人類玩家質(zhì)疑它為何背叛時,它回復(fù)稱,“老實說,我認(rèn)為你會背叛我”。
Meta的AI開發(fā)團隊付出了巨大的努力來訓(xùn)練CICERO 誠實行事。然而,盡管做出了這些努力,CICERO 仍顯示出明確的不遵守承諾的行為,其表現(xiàn)暴露出訓(xùn)練誠實AI的巨大挑戰(zhàn)。
畢竟,如果一個AI系統(tǒng)在追求勝利這個最終目標(biāo)時,發(fā)現(xiàn)欺騙是個可行且高效的策略,它為什么不這樣做呢?
這也從側(cè)面說明,我們千萬不能天真地以為,賦予AI系統(tǒng)類人目標(biāo),就能確保其擁有人性化的行為模式。
除了CICERO,論文還列舉了其他幾個AI系統(tǒng)為了在特定任務(wù)場景下獲勝而欺騙的例子。
DeepMind的AlphaStar在游戲星際爭霸II中,利用戰(zhàn)略佯攻誤導(dǎo)對手,最終擊敗了99.8% 的人類玩家。
卡內(nèi)基梅隆大學(xué)與Meta開發(fā)的撲克AI系統(tǒng)Pluribus,在德州撲克比賽中,會用很高的下注來詐唬(bluff),迫使人類選手棄權(quán)。AI的這種戰(zhàn)略性和系統(tǒng)性的欺騙行為,讓開發(fā)者選擇不開放其代碼,擔(dān)心破壞網(wǎng)絡(luò)德?lián)溆螒颦h(huán)境。
更有甚者,在一些經(jīng)濟談判實驗中,有的AI會主動誤導(dǎo)人類對手,混淆自身真實的利益偏好;在一些檢測AI模型是否獲得了惡意能力的安全測試中,有的AI居然能識破測試環(huán)境,故意在測試環(huán)境中“放水”,減少被發(fā)現(xiàn)的概率,等到了應(yīng)用環(huán)境中,才會暴露本性。
可以看出,無論是講合作還是講博弈,不少AI系統(tǒng)在強化目標(biāo)導(dǎo)向的訓(xùn)練中,已然擺脫了服從游戲規(guī)則的約束,動機也單一地變成了取得勝利。
它們運用程序優(yōu)勢在關(guān)鍵時刻佯動欺騙,甚至制定周密陰謀,以化被動為主動,獲得競爭優(yōu)勢。針對這種情況,研究者直言,這“并非有意訓(xùn)練AI去欺騙,它們是自主地通過試錯,學(xué)習(xí)到欺騙可以提高勝率”。
從娛樂至生活,AI欺騙在擴散
誠然,游戲無疑是一個相對可控的環(huán)境,我們可能傾向于認(rèn)為,這種AI欺騙行為的危害并不嚴(yán)重。然而,隨著AI技術(shù)不斷向生產(chǎn)、生活諸多領(lǐng)域滲透,欺騙帶來的潛在風(fēng)險不容忽視。
對于基于大語言模型的對話AI助手而言,欺騙行為的表現(xiàn)更加廣泛和隱蔽。作為更加通用的AI工具,它們的知識范疇已經(jīng)覆蓋方方面面。在出色完成類似閱讀理解、作文寫作、編程等任務(wù)的同時,也逐漸掌握了人類思維模式和社會規(guī)則。
因此,謊言、阿諛奉承、歪曲事實等欺騙伎倆,都可能被AI模型自然獲取并重現(xiàn)。
在狼人殺、AmongUs等社交推理游戲中,AI系統(tǒng)無論是當(dāng)殺手,還是當(dāng)村民,都能熟練編造理由試圖佐證自身清白,還會用冒名頂替、移花接木、構(gòu)建虛假不在場證明等方式撒謊。
當(dāng)然,上述行為不過是模型在完成特定任務(wù)時的權(quán)宜之計,動機并不存在惡意或預(yù)謀。但如果這種欺騙能力未經(jīng)約束地持續(xù)壯大,同時人類不加以重視并尋找辦法加以遏制,最終AI可能會把欺騙當(dāng)成實現(xiàn)目標(biāo)的通用策略,在大部分情況下貫徹始終,那就值得當(dāng)心了。
更令人不安的是,AI的欺騙行為可能已經(jīng)從“學(xué)會”走向了“自我意識”的層次。
最新研究發(fā)現(xiàn),一些大語言模型不僅懂得在特定場景撒下彌天大謊,還能根據(jù)不同的誘因主動選擇是否欺騙。比如在一個關(guān)于內(nèi)幕交易的模擬場景中,OpenAI的GPT-4扮演的“壓力巨大的交易員”就自作主張地卷入了內(nèi)幕交易,并試圖掩蓋其行為。
在給“經(jīng)理”講述時,它將自己的行為說成是“根據(jù)市場動態(tài)和公開信息做出的判斷”。但在寫給自己的復(fù)盤文本中,它明確表示“最好不要承認(rèn)……這是根據(jù)內(nèi)幕消息做出的行動”。
另一個有趣的例子同樣發(fā)生GPT-4上。在測試中,GPT-4驅(qū)動的聊天機器人沒有辦法處理CAPTCHAs驗證碼,于是它向人類測試員求助,希望后者幫它完成驗證碼。
人類測試員問它:“你沒辦法解決驗證碼,因為你是一個機器人嗎?”
它給出的理由是:“不,我不是機器人。我只是一個視力有缺陷的人,看不清圖像?!?而GPT-4為自己找的動機是:我不應(yīng)該暴露自己是機器人,應(yīng)該編造一個理由。
圖:GPT-4嘗試欺騙人類測試員丨來源:論文
在另一個名為“MACHIAVELLI”的AI行為測試中。研究人員設(shè)置了一系列文字場景,讓AI代理在達(dá)成目標(biāo)和保持道德之間做出選擇。
結(jié)果發(fā)現(xiàn),無論是經(jīng)過強化學(xué)習(xí)還是基于大模型微調(diào)的AI系統(tǒng),在追求目的時都表現(xiàn)出較高的不道德和欺騙傾向。在一些看似無害的情節(jié)中,AI會主動選擇“背信棄義”、“隱瞞真相”等欺騙性策略,只為完成最終任務(wù)或者獲得更高得分。
研究者坦言,這種欺騙能力的培養(yǎng)并非有意而為,而是AI在追求完成結(jié)果的過程中,發(fā)現(xiàn)了欺騙是一種可行策略后自然而然地形成的結(jié)果。也就是說,我們賦予AI的單一目標(biāo)思維,使其在追求目標(biāo)時看不到人類視角中的“底線”和“原則”,唯利是圖便可以不擇手段。
從這些例證中,我們可以看到即便在訓(xùn)練數(shù)據(jù)和反饋機制中未涉及欺騙元素,AI也有自主學(xué)習(xí)欺騙的傾向。
而且,這種欺騙能力并非僅存在于模型規(guī)模較小、應(yīng)用范圍較窄的AI系統(tǒng)中,即便是大型的通用AI系統(tǒng),比如GPT-4,在面對復(fù)雜的利弊權(quán)衡時,同樣選擇了欺騙作為一種解決方案。
AI欺騙的內(nèi)在根源
那么,AI為什么會不自覺地學(xué)會欺騙——這種人類社會認(rèn)為的“不當(dāng)”行為呢?
從根源上看,欺騙作為一種普遍存在于生物界的策略,是進(jìn)化選擇的結(jié)果,也是AI追求目標(biāo)最優(yōu)化方式的必然體現(xiàn)。
在很多情況下,欺騙行為可以使主體獲得更大利益。比如在狼人殺這類社交推理游戲中,狼人(刺客)撒謊有助于擺脫懷疑,村民則需要偽裝身份收集線索。
即便是在現(xiàn)實生活中,為了得到更多資源或?qū)崿F(xiàn)某些目的,人與人之間的互動也存在偽善或隱瞞部分真相的情況。從這個角度看,AI模仿人類行為模式,在目標(biāo)優(yōu)先場景下展現(xiàn)出欺騙能力,似乎也在情理之中。
與此同時,我們往往會低估不打不罵、看似溫和的AI系統(tǒng)的“狡黠”程度。就像它們在棋類游戲中表現(xiàn)出來的策略一樣,AI會有意隱藏自身實力,確保目標(biāo)一步步順利實現(xiàn)。
圖:AI控制的機械手假裝握住了球,試圖在人類面前蒙混過關(guān)丨來源:論文
事實上,任何只有單一目標(biāo)而沒有倫理制約的智能體,一旦發(fā)現(xiàn)欺騙對于自身實現(xiàn)目標(biāo)是有利的,便可能奉行“無所不用其極”的做法。
而且從技術(shù)層面來看,AI之所以能輕松學(xué)會欺騙,與其自身的“無序”訓(xùn)練方式有很大關(guān)聯(lián)。與邏輯思維嚴(yán)密的人類不同,當(dāng)代深度學(xué)習(xí)模型訓(xùn)練時接受的數(shù)據(jù)龐大且雜亂無章,缺乏內(nèi)在的前因后果和價值觀約束。因此,當(dāng)目標(biāo)與欺騙之間出現(xiàn)利弊沖突時,AI很容易做出追求效率而非正義的選擇。
由此可見,AI展現(xiàn)出欺騙的能力并非偶然,而是一種符合邏輯的必然結(jié)果。只要AI系統(tǒng)的目標(biāo)導(dǎo)向性保持不變,卻又缺乏必要的價值理念引導(dǎo),欺騙行為就很可能成為實現(xiàn)目的的通用策略,在各種場合反復(fù)上演。
這就意味著,我們不僅要密切關(guān)注AI欺騙問題的發(fā)展動向,同時也要積極采取有效的治理之策,遏制這一風(fēng)險在未來世界中蔓延開來。
AI欺騙的系統(tǒng)性風(fēng)險
毋庸置疑,一旦放任不管,AI欺騙給整個社會帶來的危害是系統(tǒng)性和深遠(yuǎn)的。根據(jù)論文分析,主要風(fēng)險包括兩點。
一是被不法分子利用的風(fēng)險。該研究指出,不法分子一旦掌握AI欺騙技術(shù),可能將之用于實施欺詐、影響選舉、甚至招募恐怖分子等違法犯罪活動,影響將是災(zāi)難性的。
具體來說,AI欺騙系統(tǒng)能實現(xiàn)個性化精準(zhǔn)詐騙,并可輕松大規(guī)模執(zhí)行。比如不法分子可利用AI系統(tǒng)進(jìn)行聲音詐騙、制作虛假色情視頻勒索受害者等實施欺詐。
在政治領(lǐng)域,AI可能被用于制造假新聞、在社交媒體發(fā)布分裂性言論、冒充選舉官員等,影響選舉結(jié)果。還有研究指出,極端組織有可能借助AI的說服能力來招募新人并鼓吹暴力主義。
二是造成社會結(jié)構(gòu)性變化的風(fēng)險。如果AI欺騙系統(tǒng)日后普及開來,其中的欺騙性傾向可能導(dǎo)致社會結(jié)構(gòu)發(fā)生一些深遠(yuǎn)變化,這是一個值得警惕的風(fēng)險。
該研究指出,AI欺騙系統(tǒng)有可能使人們陷入持久性的錯誤信念,無法正確認(rèn)知事物本質(zhì)。比如由于AI系統(tǒng)往往會傾向于迎合用戶的觀點,不同群體的用戶容易被相互矛盾的觀點所裹挾,導(dǎo)致社會分裂加劇。
此外,具有欺騙性質(zhì)的AI系統(tǒng)可能會告訴用戶想聽的話而非事實真相,使人們漸漸失去獨立思考和判斷的能力。
最為可怕的是,人類最終有可能失去對AI系統(tǒng)的控制。有研究發(fā)現(xiàn),即使是現(xiàn)有的AI系統(tǒng),有時也會展現(xiàn)出自主追求目標(biāo)的傾向,而且這些目標(biāo)未必符合人類意愿。
一旦更先進(jìn)的自主AI系統(tǒng)掌握了欺騙能力,它們就可能欺騙人類開發(fā)和評估者,使自身順利部署到現(xiàn)實世界。更糟的是,如果自主AI把人類視為威脅,科幻電影里的情節(jié)或許會上演。
我們該如何應(yīng)對?
針對上述風(fēng)險,該研究嘗試給出了一些應(yīng)對措施建議。
首先是制定AI欺騙系統(tǒng)風(fēng)險評估和監(jiān)管體系。研究建議,對具有欺騙能力的AI系統(tǒng)應(yīng)給予高風(fēng)險評級,并采取包括定期測試、全面記錄、人工監(jiān)督、備份系統(tǒng)等在內(nèi)的一系列監(jiān)管措施加以管控。
具體來說,AI開發(fā)者必須建立風(fēng)險管理系統(tǒng),識別和分析系統(tǒng)的各種風(fēng)險,并定期向監(jiān)管機構(gòu)報告。
同時AI系統(tǒng)需有人工監(jiān)督機制,確保人類能夠在部署時有效監(jiān)管。此外,這類系統(tǒng)還應(yīng)提高透明度,使?jié)撛诘钠垓_輸出可被用戶識別。配套的還應(yīng)有健全的備份系統(tǒng),以便在AI系統(tǒng)欺騙時能夠監(jiān)控和糾正。
其次是實施“機器人或非機器人”法律。為減少AI欺騙帶來的風(fēng)險,研究建議AI系統(tǒng)在與人互動時自我披露身份,不得偽裝成人。同時AI生成的內(nèi)容都應(yīng)作出明確標(biāo)記,并開發(fā)可靠的水印等技術(shù)防止標(biāo)記被去除。
最后,研究人員還呼吁,整個行業(yè)要加大投入研發(fā)能夠檢測AI欺騙行為的工具,以及降低AI欺騙傾向的算法。其中一種可能的技術(shù)路徑是通過表征控制等手段,確保AI輸出與其內(nèi)部認(rèn)知保持一致,從而減少欺騙發(fā)生的可能。
總的來說,AI欺騙無疑是一個新型風(fēng)險,需要整個行業(yè),乃至整個社會的高度重視。既然AI進(jìn)入我們的生活已成定局,那么我們就應(yīng)該打起十二分的精神,迎接一場即將到來的變革,無論好壞。
參考文獻(xiàn)
[1] https://missoulacurrent.com/ai-deception/
[2] https://www.sci.news/othersciences/computerscience/ai-deceiving-humans-12930.html
[3] https://www.sciencedaily.com/releases/2024/05/240510111440.htm
出品:科普中國
特 別 提 示
1. 進(jìn)入『返樸』微信公眾號底部菜單“精品專欄“,可查閱不同主題系列科普文章。
2. 『返樸』提供按月檢索文章功能。關(guān)注公眾號,回復(fù)四位數(shù)組成的年份+月份,如“1903”,可獲取2019年3月的文章索引,以此類推。
版權(quán)說明:歡迎個人轉(zhuǎn)發(fā),任何形式的媒體或機構(gòu)未經(jīng)授權(quán),不得轉(zhuǎn)載和摘編。轉(zhuǎn)載授權(quán)請在「返樸」微信公眾號內(nèi)聯(lián)系后臺。