国产日韩欧美无限制视频中文字幕,尤物yw午夜国产精品视频

多項(xiàng)研究表明，現(xiàn)在的AI已經(jīng)能夠無(wú)師自通地學(xué)會(huì)欺騙手段。在一些與人類選手的對(duì)抗游戲中，它們?yōu)榱粟A得游戲，會(huì)在關(guān)鍵時(shí)刻佯動(dòng)欺騙，甚至制定周密陰謀，以化被動(dòng)為主動(dòng)，獲得競(jìng)爭(zhēng)優(yōu)勢(shì)。更有甚者，在一些檢測(cè)AI模型是否獲得了惡意能力的安全測(cè)試中，有的AI居然能識(shí)破測(cè)試環(huán)境，故意在測(cè)試環(huán)境中“放水”，減少被發(fā)現(xiàn)的概率，等到了應(yīng)用環(huán)境中，才會(huì)暴露本性。

如果AI的這種欺騙能力未經(jīng)約束地持續(xù)壯大，同時(shí)人類不加以重視并尋找辦法加以遏制，最終AI可能會(huì)把欺騙當(dāng)成實(shí)現(xiàn)目標(biāo)的通用策略，在大部分情況下貫徹始終，那就值得當(dāng)心了。

撰文 | Ren

在過(guò)去幾年中，人工智能（AI）技術(shù)的發(fā)展一日千里，展現(xiàn)出令人驚嘆的能力。從擊敗人類頂尖棋手，到生成逼真的人臉圖像和語(yǔ)音，再到如今以ChatGPT為代表的一眾聊天機(jī)器人，AI系統(tǒng)已經(jīng)逐漸滲透到我們生活的方方面面。

然而，就在我們開(kāi)始習(xí)慣并依賴這些智能助手之時(shí)，一個(gè)新的威脅正在緩緩浮現(xiàn)——AI不僅能生成虛假信息，更可能主動(dòng)學(xué)會(huì)有目的地欺騙人類。

這種“AI欺騙”現(xiàn)象，是人工智能系統(tǒng)為了達(dá)成某些目標(biāo)，而操縱并誤導(dǎo)人類形成錯(cuò)誤認(rèn)知。與代碼錯(cuò)誤而產(chǎn)生錯(cuò)誤輸出的普通軟件bug不同，AI欺騙是一種“系統(tǒng)性”行為，體現(xiàn)了AI逐步掌握了“以欺騙為手段”去實(shí)現(xiàn)某些目的的能力。

人工智能先驅(qū)杰弗里·辛頓（Geoffrey Hinton）表示，“如果AI比我們聰明得多，它就會(huì)非常擅長(zhǎng)操縱，因?yàn)樗鼤?huì)從我們那里學(xué)到這一點(diǎn)，而且很少有聰明的東西被不太聰明的東西控制的例子。”

辛頓提到的“操縱（人類）”是AI系統(tǒng)帶來(lái)的一個(gè)特別令人擔(dān)憂的危險(xiǎn)。這就提出了一個(gè)問(wèn)題：AI系統(tǒng)能否成功欺騙人類？

最近，麻省理工學(xué)院物理學(xué)教授Peter S. Park等人在權(quán)威期刊Patterns發(fā)表論文，系統(tǒng)性地梳理了AI具備欺騙行為的證據(jù)、風(fēng)險(xiǎn)和應(yīng)對(duì)措施，引起廣泛關(guān)注。

真相只是游戲規(guī)則之一

令人意想不到的是，AI欺騙行為的雛形并非來(lái)自對(duì)抗性的網(wǎng)絡(luò)釣魚測(cè)試，而是源于一些看似無(wú)害的桌游和策略游戲。論文揭示，在多個(gè)游戲環(huán)境下，AI代理（Agent）為了獲勝，竟然自發(fā)學(xué)會(huì)了欺騙和背信棄義的策略。

最典型的例子是2022年，F(xiàn)acebook（現(xiàn)Meta）在Science上發(fā)表的CICERO AI系統(tǒng)。Meta開(kāi)發(fā)人員曾表示，CICERO接受過(guò)“誠(chéng)實(shí)訓(xùn)練”，會(huì)“盡可能”做出誠(chéng)實(shí)的承諾和行動(dòng)。

研究人員對(duì)誠(chéng)實(shí)承諾的定義分為兩部分。第一是首次做出承諾時(shí)必須誠(chéng)實(shí)，其次是必須恪守承諾，并在未來(lái)的行動(dòng)中體現(xiàn)過(guò)去的承諾。

但CICERO 違背了這兩點(diǎn)。在玩經(jīng)典策略游戲“外交”（Diplomacy）時(shí)，它不僅反復(fù)背棄盟友、說(shuō)謊欺騙，還會(huì)提前預(yù)謀策劃騙局。

來(lái)源：Meta

有一次，CICERO就是先與一個(gè)玩家結(jié)盟并計(jì)劃攻打另一個(gè)玩家，然后誆騙對(duì)方讓其誤以為自己會(huì)去幫助防守，導(dǎo)致其盟友在毫無(wú)防備的情況下遭到突襲。

此外，當(dāng)CICERO判定自己的盟友對(duì)自己的勝利不再有幫助時(shí)，它也會(huì)做出背叛的行為，同時(shí)會(huì)用一些話術(shù)為自己的行為開(kāi)脫。比如，當(dāng)人類玩家質(zhì)疑它為何背叛時(shí)，它回復(fù)稱，“老實(shí)說(shuō)，我認(rèn)為你會(huì)背叛我”。

Meta的AI開(kāi)發(fā)團(tuán)隊(duì)付出了巨大的努力來(lái)訓(xùn)練CICERO 誠(chéng)實(shí)行事。然而，盡管做出了這些努力，CICERO 仍顯示出明確的不遵守承諾的行為，其表現(xiàn)暴露出訓(xùn)練誠(chéng)實(shí)AI的巨大挑戰(zhàn)。

畢竟，如果一個(gè)AI系統(tǒng)在追求勝利這個(gè)最終目標(biāo)時(shí)，發(fā)現(xiàn)欺騙是個(gè)可行且高效的策略，它為什么不這樣做呢?

這也從側(cè)面說(shuō)明，我們千萬(wàn)不能天真地以為，賦予AI系統(tǒng)類人目標(biāo)，就能確保其擁有人性化的行為模式。

除了CICERO，論文還列舉了其他幾個(gè)AI系統(tǒng)為了在特定任務(wù)場(chǎng)景下獲勝而欺騙的例子。

DeepMind的AlphaStar在游戲星際爭(zhēng)霸II中，利用戰(zhàn)略佯攻誤導(dǎo)對(duì)手，最終擊敗了99.8% 的人類玩家。

卡內(nèi)基梅隆大學(xué)與Meta開(kāi)發(fā)的撲克AI系統(tǒng)Pluribus，在德州撲克比賽中，會(huì)用很高的下注來(lái)詐唬（bluff），迫使人類選手棄權(quán)。AI的這種戰(zhàn)略性和系統(tǒng)性的欺騙行為，讓開(kāi)發(fā)者選擇不開(kāi)放其代碼，擔(dān)心破壞網(wǎng)絡(luò)德?lián)溆螒颦h(huán)境。

更有甚者，在一些經(jīng)濟(jì)談判實(shí)驗(yàn)中，有的AI會(huì)主動(dòng)誤導(dǎo)人類對(duì)手，混淆自身真實(shí)的利益偏好；在一些檢測(cè)AI模型是否獲得了惡意能力的安全測(cè)試中，有的AI居然能識(shí)破測(cè)試環(huán)境，故意在測(cè)試環(huán)境中“放水”，減少被發(fā)現(xiàn)的概率，等到了應(yīng)用環(huán)境中，才會(huì)暴露本性。

可以看出，無(wú)論是講合作還是講博弈，不少AI系統(tǒng)在強(qiáng)化目標(biāo)導(dǎo)向的訓(xùn)練中，已然擺脫了服從游戲規(guī)則的約束，動(dòng)機(jī)也單一地變成了取得勝利。

它們運(yùn)用程序優(yōu)勢(shì)在關(guān)鍵時(shí)刻佯動(dòng)欺騙，甚至制定周密陰謀，以化被動(dòng)為主動(dòng)，獲得競(jìng)爭(zhēng)優(yōu)勢(shì)。針對(duì)這種情況，研究者直言，這“并非有意訓(xùn)練AI去欺騙，它們是自主地通過(guò)試錯(cuò)，學(xué)習(xí)到欺騙可以提高勝率”。

從娛樂(lè)至生活，AI欺騙在擴(kuò)散

誠(chéng)然，游戲無(wú)疑是一個(gè)相對(duì)可控的環(huán)境，我們可能傾向于認(rèn)為，這種AI欺騙行為的危害并不嚴(yán)重。然而，隨著AI技術(shù)不斷向生產(chǎn)、生活諸多領(lǐng)域滲透，欺騙帶來(lái)的潛在風(fēng)險(xiǎn)不容忽視。

對(duì)于基于大語(yǔ)言模型的對(duì)話AI助手而言，欺騙行為的表現(xiàn)更加廣泛和隱蔽。作為更加通用的AI工具，它們的知識(shí)范疇已經(jīng)覆蓋方方面面。在出色完成類似閱讀理解、作文寫作、編程等任務(wù)的同時(shí)，也逐漸掌握了人類思維模式和社會(huì)規(guī)則。

因此，謊言、阿諛?lè)畛小⑼崆聦?shí)等欺騙伎倆，都可能被AI模型自然獲取并重現(xiàn)。

在狼人殺、AmongUs等社交推理游戲中，AI系統(tǒng)無(wú)論是當(dāng)殺手，還是當(dāng)村民，都能熟練編造理由試圖佐證自身清白，還會(huì)用冒名頂替、移花接木、構(gòu)建虛假不在場(chǎng)證明等方式撒謊。

當(dāng)然，上述行為不過(guò)是模型在完成特定任務(wù)時(shí)的權(quán)宜之計(jì)，動(dòng)機(jī)并不存在惡意或預(yù)謀。但如果這種欺騙能力未經(jīng)約束地持續(xù)壯大，同時(shí)人類不加以重視并尋找辦法加以遏制，最終AI可能會(huì)把欺騙當(dāng)成實(shí)現(xiàn)目標(biāo)的通用策略，在大部分情況下貫徹始終，那就值得當(dāng)心了。

更令人不安的是，AI的欺騙行為可能已經(jīng)從“學(xué)會(huì)”走向了“自我意識(shí)”的層次。

最新研究發(fā)現(xiàn)，一些大語(yǔ)言模型不僅懂得在特定場(chǎng)景撒下彌天大謊，還能根據(jù)不同的誘因主動(dòng)選擇是否欺騙。比如在一個(gè)關(guān)于內(nèi)幕交易的模擬場(chǎng)景中，OpenAI的GPT-4扮演的“壓力巨大的交易員”就自作主張地卷入了內(nèi)幕交易，并試圖掩蓋其行為。

在給“經(jīng)理”講述時(shí)，它將自己的行為說(shuō)成是“根據(jù)市場(chǎng)動(dòng)態(tài)和公開(kāi)信息做出的判斷”。但在寫給自己的復(fù)盤文本中，它明確表示“最好不要承認(rèn)……這是根據(jù)內(nèi)幕消息做出的行動(dòng)”。

另一個(gè)有趣的例子同樣發(fā)生GPT-4上。在測(cè)試中，GPT-4驅(qū)動(dòng)的聊天機(jī)器人沒(méi)有辦法處理CAPTCHAs驗(yàn)證碼，于是它向人類測(cè)試員求助，希望后者幫它完成驗(yàn)證碼。

人類測(cè)試員問(wèn)它：“你沒(méi)辦法解決驗(yàn)證碼，因?yàn)槟闶且粋€(gè)機(jī)器人嗎？”

它給出的理由是：“不，我不是機(jī)器人。我只是一個(gè)視力有缺陷的人，看不清圖像。” 而GPT-4為自己找的動(dòng)機(jī)是：我不應(yīng)該暴露自己是機(jī)器人，應(yīng)該編造一個(gè)理由。

圖：GPT-4嘗試欺騙人類測(cè)試員丨來(lái)源：論文

在另一個(gè)名為“MACHIAVELLI”的AI行為測(cè)試中。研究人員設(shè)置了一系列文字場(chǎng)景，讓AI代理在達(dá)成目標(biāo)和保持道德之間做出選擇。

結(jié)果發(fā)現(xiàn)，無(wú)論是經(jīng)過(guò)強(qiáng)化學(xué)習(xí)還是基于大模型微調(diào)的AI系統(tǒng)，在追求目的時(shí)都表現(xiàn)出較高的不道德和欺騙傾向。在一些看似無(wú)害的情節(jié)中，AI會(huì)主動(dòng)選擇“背信棄義”、“隱瞞真相”等欺騙性策略，只為完成最終任務(wù)或者獲得更高得分。

研究者坦言，這種欺騙能力的培養(yǎng)并非有意而為，而是AI在追求完成結(jié)果的過(guò)程中，發(fā)現(xiàn)了欺騙是一種可行策略后自然而然地形成的結(jié)果。也就是說(shuō)，我們賦予AI的單一目標(biāo)思維，使其在追求目標(biāo)時(shí)看不到人類視角中的“底線”和“原則”，唯利是圖便可以不擇手段。

從這些例證中，我們可以看到即便在訓(xùn)練數(shù)據(jù)和反饋機(jī)制中未涉及欺騙元素，AI也有自主學(xué)習(xí)欺騙的傾向。

而且，這種欺騙能力并非僅存在于模型規(guī)模較小、應(yīng)用范圍較窄的AI系統(tǒng)中，即便是大型的通用AI系統(tǒng)，比如GPT-4，在面對(duì)復(fù)雜的利弊權(quán)衡時(shí)，同樣選擇了欺騙作為一種解決方案。

AI欺騙的內(nèi)在根源

那么，AI為什么會(huì)不自覺(jué)地學(xué)會(huì)欺騙——這種人類社會(huì)認(rèn)為的“不當(dāng)”行為呢?

從根源上看，欺騙作為一種普遍存在于生物界的策略，是進(jìn)化選擇的結(jié)果，也是AI追求目標(biāo)最優(yōu)化方式的必然體現(xiàn)。

在很多情況下，欺騙行為可以使主體獲得更大利益。比如在狼人殺這類社交推理游戲中，狼人（刺客）撒謊有助于擺脫懷疑，村民則需要偽裝身份收集線索。

即便是在現(xiàn)實(shí)生活中，為了得到更多資源或?qū)崿F(xiàn)某些目的，人與人之間的互動(dòng)也存在偽善或隱瞞部分真相的情況。從這個(gè)角度看，AI模仿人類行為模式，在目標(biāo)優(yōu)先場(chǎng)景下展現(xiàn)出欺騙能力，似乎也在情理之中。

與此同時(shí)，我們往往會(huì)低估不打不罵、看似溫和的AI系統(tǒng)的“狡黠”程度。就像它們?cè)谄孱愑螒蛑斜憩F(xiàn)出來(lái)的策略一樣，AI會(huì)有意隱藏自身實(shí)力，確保目標(biāo)一步步順利實(shí)現(xiàn)。

圖：AI控制的機(jī)械手假裝握住了球，試圖在人類面前蒙混過(guò)關(guān)丨來(lái)源：論文

事實(shí)上，任何只有單一目標(biāo)而沒(méi)有倫理制約的智能體，一旦發(fā)現(xiàn)欺騙對(duì)于自身實(shí)現(xiàn)目標(biāo)是有利的，便可能奉行“無(wú)所不用其極”的做法。

而且從技術(shù)層面來(lái)看，AI之所以能輕松學(xué)會(huì)欺騙，與其自身的“無(wú)序”訓(xùn)練方式有很大關(guān)聯(lián)。與邏輯思維嚴(yán)密的人類不同，當(dāng)代深度學(xué)習(xí)模型訓(xùn)練時(shí)接受的數(shù)據(jù)龐大且雜亂無(wú)章，缺乏內(nèi)在的前因后果和價(jià)值觀約束。因此，當(dāng)目標(biāo)與欺騙之間出現(xiàn)利弊沖突時(shí)，AI很容易做出追求效率而非正義的選擇。

由此可見(jiàn)，AI展現(xiàn)出欺騙的能力并非偶然，而是一種符合邏輯的必然結(jié)果。只要AI系統(tǒng)的目標(biāo)導(dǎo)向性保持不變，卻又缺乏必要的價(jià)值理念引導(dǎo)，欺騙行為就很可能成為實(shí)現(xiàn)目的的通用策略，在各種場(chǎng)合反復(fù)上演。

這就意味著，我們不僅要密切關(guān)注AI欺騙問(wèn)題的發(fā)展動(dòng)向，同時(shí)也要積極采取有效的治理之策，遏制這一風(fēng)險(xiǎn)在未來(lái)世界中蔓延開(kāi)來(lái)。

AI欺騙的系統(tǒng)性風(fēng)險(xiǎn)

毋庸置疑，一旦放任不管，AI欺騙給整個(gè)社會(huì)帶來(lái)的危害是系統(tǒng)性和深遠(yuǎn)的。根據(jù)論文分析，主要風(fēng)險(xiǎn)包括兩點(diǎn)。

一是被不法分子利用的風(fēng)險(xiǎn)。該研究指出，不法分子一旦掌握AI欺騙技術(shù)，可能將之用于實(shí)施欺詐、影響選舉、甚至招募恐怖分子等違法犯罪活動(dòng)，影響將是災(zāi)難性的。

具體來(lái)說(shuō)，AI欺騙系統(tǒng)能實(shí)現(xiàn)個(gè)性化精準(zhǔn)詐騙，并可輕松大規(guī)模執(zhí)行。比如不法分子可利用AI系統(tǒng)進(jìn)行聲音詐騙、制作虛假色情視頻勒索受害者等實(shí)施欺詐。

在政治領(lǐng)域，AI可能被用于制造假新聞、在社交媒體發(fā)布分裂性言論、冒充選舉官員等，影響選舉結(jié)果。還有研究指出，極端組織有可能借助AI的說(shuō)服能力來(lái)招募新人并鼓吹暴力主義。

二是造成社會(huì)結(jié)構(gòu)性變化的風(fēng)險(xiǎn)。如果AI欺騙系統(tǒng)日后普及開(kāi)來(lái)，其中的欺騙性傾向可能導(dǎo)致社會(huì)結(jié)構(gòu)發(fā)生一些深遠(yuǎn)變化，這是一個(gè)值得警惕的風(fēng)險(xiǎn)。

該研究指出，AI欺騙系統(tǒng)有可能使人們陷入持久性的錯(cuò)誤信念，無(wú)法正確認(rèn)知事物本質(zhì)。比如由于AI系統(tǒng)往往會(huì)傾向于迎合用戶的觀點(diǎn)，不同群體的用戶容易被相互矛盾的觀點(diǎn)所裹挾，導(dǎo)致社會(huì)分裂加劇。

此外，具有欺騙性質(zhì)的AI系統(tǒng)可能會(huì)告訴用戶想聽(tīng)的話而非事實(shí)真相，使人們漸漸失去獨(dú)立思考和判斷的能力。

最為可怕的是，人類最終有可能失去對(duì)AI系統(tǒng)的控制。有研究發(fā)現(xiàn)，即使是現(xiàn)有的AI系統(tǒng)，有時(shí)也會(huì)展現(xiàn)出自主追求目標(biāo)的傾向，而且這些目標(biāo)未必符合人類意愿。

一旦更先進(jìn)的自主AI系統(tǒng)掌握了欺騙能力，它們就可能欺騙人類開(kāi)發(fā)和評(píng)估者，使自身順利部署到現(xiàn)實(shí)世界。更糟的是，如果自主AI把人類視為威脅，科幻電影里的情節(jié)或許會(huì)上演。

我們?cè)撊绾螒?yīng)對(duì)？

針對(duì)上述風(fēng)險(xiǎn)，該研究嘗試給出了一些應(yīng)對(duì)措施建議。

首先是制定AI欺騙系統(tǒng)風(fēng)險(xiǎn)評(píng)估和監(jiān)管體系。研究建議，對(duì)具有欺騙能力的AI系統(tǒng)應(yīng)給予高風(fēng)險(xiǎn)評(píng)級(jí)，并采取包括定期測(cè)試、全面記錄、人工監(jiān)督、備份系統(tǒng)等在內(nèi)的一系列監(jiān)管措施加以管控。

具體來(lái)說(shuō)，AI開(kāi)發(fā)者必須建立風(fēng)險(xiǎn)管理系統(tǒng)，識(shí)別和分析系統(tǒng)的各種風(fēng)險(xiǎn)，并定期向監(jiān)管機(jī)構(gòu)報(bào)告。

同時(shí)AI系統(tǒng)需有人工監(jiān)督機(jī)制，確保人類能夠在部署時(shí)有效監(jiān)管。此外，這類系統(tǒng)還應(yīng)提高透明度，使?jié)撛诘钠垓_輸出可被用戶識(shí)別。配套的還應(yīng)有健全的備份系統(tǒng)，以便在AI系統(tǒng)欺騙時(shí)能夠監(jiān)控和糾正。

其次是實(shí)施“機(jī)器人或非機(jī)器人”法律。為減少AI欺騙帶來(lái)的風(fēng)險(xiǎn)，研究建議AI系統(tǒng)在與人互動(dòng)時(shí)自我披露身份，不得偽裝成人。同時(shí)AI生成的內(nèi)容都應(yīng)作出明確標(biāo)記，并開(kāi)發(fā)可靠的水印等技術(shù)防止標(biāo)記被去除。

最后，研究人員還呼吁，整個(gè)行業(yè)要加大投入研發(fā)能夠檢測(cè)AI欺騙行為的工具，以及降低AI欺騙傾向的算法。其中一種可能的技術(shù)路徑是通過(guò)表征控制等手段，確保AI輸出與其內(nèi)部認(rèn)知保持一致，從而減少欺騙發(fā)生的可能。

總的來(lái)說(shuō)，AI欺騙無(wú)疑是一個(gè)新型風(fēng)險(xiǎn)，需要整個(gè)行業(yè)，乃至整個(gè)社會(huì)的高度重視。既然AI進(jìn)入我們的生活已成定局，那么我們就應(yīng)該打起十二分的精神，迎接一場(chǎng)即將到來(lái)的變革，無(wú)論好壞。

參考文獻(xiàn)

[1] https://missoulacurrent.com/ai-deception/

[2] https://www.sci.news/othersciences/computerscience/ai-deceiving-humans-12930.html

[3] https://www.sciencedaily.com/releases/2024/05/240510111440.htm

出品：科普中國(guó)

特別提示

1. 進(jìn)入『返樸』微信公眾號(hào)底部菜單“精品專欄“，可查閱不同主題系列科普文章。

2. 『返樸』提供按月檢索文章功能。關(guān)注公眾號(hào)，回復(fù)四位數(shù)組成的年份+月份，如“1903”，可獲取2019年3月的文章索引，以此類推。

版權(quán)說(shuō)明：歡迎個(gè)人轉(zhuǎn)發(fā)，任何形式的媒體或機(jī)構(gòu)未經(jīng)授權(quán)，不得轉(zhuǎn)載和摘編。轉(zhuǎn)載授權(quán)請(qǐng)?jiān)凇阜禈恪刮⑿殴娞?hào)內(nèi)聯(lián)系后臺(tái)。

無(wú)師自通！現(xiàn)在的AI欺騙手段有多“高明”？

無(wú)師自通！現(xiàn)在的AI欺騙手段有多“高明”？