色综合五月,曰产无码久久久久久精品

盡管生成式人工智能（AI）正在改變?nèi)騼?nèi)容生產(chǎn)的格局，但諸多嚴(yán)峻挑戰(zhàn)也隨之而來(lái)：如何準(zhǔn)確識(shí)別由 AI 生成的內(nèi)容并防止其被濫用，尤其是在文本生成領(lǐng)域，已成為困擾越來(lái)越多人的一大難題。

今天，Google DeepMind 團(tuán)隊(duì)發(fā)表了一項(xiàng)重磅研究——

他們開(kāi)發(fā)了一種名為 SynthID-Text 的新型水印工具。該工具采用“錦標(biāo)賽抽樣”（tournament sampling）算法，在不損害文本質(zhì)量的前提下，通過(guò)嵌入隱形水印，使大語(yǔ)言模型（LLM）生成的每段文本都帶有獨(dú)特標(biāo)識(shí)，極大提高了文本追蹤和檢測(cè)的精度。

研究發(fā)現(xiàn)，通過(guò)在多個(gè)公開(kāi)可用的模型上評(píng)估，SynthID-Text 顯示出比現(xiàn)有方法更高的檢測(cè)率。通過(guò)對(duì)近 2000 萬(wàn)條 LLM 的實(shí)時(shí)聊天互動(dòng)數(shù)據(jù)進(jìn)行分析，非扭曲模式的水印并未降低文本質(zhì)量。

相關(guān)研究論文以 “Scalable watermarking for identifying large language model outputs” 為題，以封面文章的形式已發(fā)表在權(quán)威科學(xué)期刊 Nature 上。

這一工具的推出，標(biāo)志著 AI 文本透明性和責(zé)任性的重大進(jìn)展，為當(dāng)前 AI 生成內(nèi)容的溯源和透明性提供了新的解決方案，也回應(yīng)了當(dāng)前社會(huì)對(duì) AI 內(nèi)容可信度的擔(dān)憂。

“揭穿” AI 文本的“隱形指紋”

隨著 LLM 技術(shù)的發(fā)展，像 GPT 系列模型等 AI 工具生成的文本內(nèi)容流暢度和語(yǔ)言多樣性已經(jīng)接近甚至超越人類編寫的文本。然而，這也帶來(lái)了關(guān)于內(nèi)容可信性和來(lái)源問(wèn)題的挑戰(zhàn)，尤其是在教育、媒體等領(lǐng)域，無(wú)法辨別生成文本的來(lái)源可能會(huì)導(dǎo)致誤導(dǎo)性信息的傳播。

在文本生成的過(guò)程中，LLM 將文本分解為 token（最小的語(yǔ)言單位），然后逐步預(yù)測(cè)下一個(gè) token 的出現(xiàn)概率，然后通過(guò)大量語(yǔ)料數(shù)據(jù)的訓(xùn)練，學(xué)習(xí)語(yǔ)言的上下文結(jié)構(gòu)，從而實(shí)現(xiàn)語(yǔ)言生成。每次預(yù)測(cè)新的 token，LLM 都基于此前生成的 token 和上下文，逐步構(gòu)建句子直到完成整段文本。

傳統(tǒng)的水印技術(shù)往往需要在生成文本中做出一些可察覺(jué)的修改，如基于機(jī)器學(xué)習(xí)的分類器和檢索式系統(tǒng)，可以在一定程度上檢測(cè) AI 生成的內(nèi)容，但其在大規(guī)模應(yīng)用時(shí)表現(xiàn)欠佳，且誤報(bào)率較高。同時(shí)，現(xiàn)有的方法往往存在隱私問(wèn)題，難以在不影響文本質(zhì)量的情況下進(jìn)行大規(guī)模應(yīng)用。

圖｜LLM 文本生成和生成水印概述

SynthID-Text的創(chuàng)新在于引入隨機(jī)種子生成器和多層次的水印函數(shù)，在每次生成 token 時(shí)，隨機(jī)種子會(huì)傳遞給多個(gè)水印函數(shù)，通過(guò)錦標(biāo)賽的方式選出符合水印要求的最高分詞嵌入文本。這種方法確保了生成的文本具備水印特征，同時(shí)不會(huì)顯著影響文本流暢性和多樣性。

在 LLM 生成文本時(shí)，SynthID-Text 的嵌入技術(shù)分為三個(gè)關(guān)鍵步驟：

隨機(jī)種子生成：輸入上下文后，隨機(jī)種子生成器生成一個(gè)種子，該種子將作為后續(xù)水印嵌入過(guò)程的輸入。

錦標(biāo)賽抽樣：隨機(jī)種子作為輸入傳遞給多層次的水印函數(shù)（如 g_1, g_2, g_3），每個(gè)函數(shù)生成候選 token。然后，系統(tǒng)通過(guò)多輪錦標(biāo)賽比較不同水印函數(shù)得出的分?jǐn)?shù)，選出得分最高的詞嵌入到文本中。

水印嵌入：每次生成新的 token 時(shí)，錦標(biāo)賽過(guò)程會(huì)選擇符合水印條件的詞，而不會(huì)顯著偏離原有的 LLM 語(yǔ)言模型分布。

圖｜SynthID-Text的基于錦標(biāo)賽的水印

在生成式 AI 應(yīng)用中，文本質(zhì)量和多樣性至關(guān)重要。傳統(tǒng)的水印技術(shù)可能在嵌入水印的過(guò)程中犧牲文本的流暢性，導(dǎo)致生成文本出現(xiàn)語(yǔ)法錯(cuò)誤或重復(fù)內(nèi)容。

SynthID-Text 通過(guò)非扭曲水?。╪on-distortionary watermarking）技術(shù)優(yōu)化了這一問(wèn)題，這種水印嵌入方法兼顧了生成文本的質(zhì)量和透明性，確保在不改變生成文本自然性的前提下實(shí)現(xiàn)水印標(biāo)記。

研究表明，單詞級(jí)別的水印嵌入不會(huì)改變 LLM 原有的文本生成分布，從而保持了文本的流暢性和多樣性。

實(shí)驗(yàn)驗(yàn)證：文本質(zhì)量與水印檢測(cè)的平衡

研究團(tuán)隊(duì)對(duì) 2000 萬(wàn)條由 LLM 生成的文本進(jìn)行了大規(guī)模實(shí)驗(yàn)，測(cè)試了 SynthID-Text 的實(shí)際效果。

研究發(fā)現(xiàn)，在非失真模式下（即不改變文本結(jié)構(gòu)和語(yǔ)法的情況下），SynthID-Text 幾乎不會(huì)對(duì)生成文本的質(zhì)量造成任何影響，而且用戶對(duì)嵌入水印的文本與未嵌入水印的文本的滿意度差異僅為 0.01%。這表明，SynthID-Text 能夠在不犧牲用戶體驗(yàn)的前提下，實(shí)現(xiàn)高效的文本水印嵌入。

此外，論文分析了 “單 token 非失真性” 的概念，即在特定配置下，水印算法在生成每個(gè) token 時(shí)不會(huì)影響 LLM 的原始分布。這保證了文本質(zhì)量的最大程度保留，使水印嵌入對(duì)用戶體驗(yàn)幾乎沒(méi)有負(fù)面影響。

圖｜SynthID-Text 的檢測(cè)性能

研究還分析了 SynthID-Text 的水印檢測(cè)性能主要受文本長(zhǎng)度和 LLM 生成文本的熵值（entropy）影響。熵值指的是文本生成過(guò)程中語(yǔ)言的多樣性，即模型生成新 token 時(shí)的選項(xiàng)數(shù)目。結(jié)果顯示，熵值越高的文本，水印的嵌入和檢測(cè)效果越好；而熵值較低的環(huán)境下，水印的嵌入與檢測(cè)難度則增加。

研究指出，這主要是由于模型生成的文本選項(xiàng)較少，錦標(biāo)賽抽樣算法無(wú)法選擇最優(yōu)的水印詞。

為了提高水印在低熵環(huán)境下的嵌入與檢測(cè)性能，研究團(tuán)隊(duì)提出通過(guò)增加錦標(biāo)賽層數(shù)的方法來(lái)增強(qiáng)水印檢測(cè)的可靠性，不過(guò)研究也警告，過(guò)多的錦標(biāo)賽層數(shù)可能導(dǎo)致熵值耗盡，從而削弱水印的嵌入效果。

因此，在實(shí)際應(yīng)用中，研究建議將錦標(biāo)賽的層數(shù)控制在 30 層以內(nèi)，以確保檢測(cè)精度與文本生成的平衡。

不足與展望

盡管 SynthID-Text 在隱形水印嵌入方面表現(xiàn)出了顯著的優(yōu)勢(shì)，但其在某些應(yīng)用場(chǎng)景下仍存在局限性。主要挑戰(zhàn)包括：

加速文本生成中的應(yīng)用問(wèn)題：目前，SynthID-Text 尚未對(duì)諸如推測(cè)性抽樣（predictive sampling）等加速文本生成技術(shù)進(jìn)行優(yōu)化，這意味著在某些應(yīng)用場(chǎng)景中，水印嵌入的效率可能受到影響。

文本編輯與規(guī)避問(wèn)題：雖然 SynthID-Text 提升了水印的檢測(cè)率，但研究團(tuán)隊(duì)也指出，這種水印仍可能被通過(guò)重寫或編輯來(lái)規(guī)避。因此，在實(shí)際應(yīng)用中仍需要結(jié)合其他檢測(cè)技術(shù)以提高魯棒性。

多語(yǔ)言模型的兼容性：當(dāng)前研究的主要焦點(diǎn)是針對(duì)英語(yǔ)的文本生成，而對(duì)于不同語(yǔ)言的 LLM，水印嵌入與檢測(cè)的效果可能存在差異，尤其是在未經(jīng)訓(xùn)練的語(yǔ)言上。

對(duì)此，研究團(tuán)隊(duì)表示，他們計(jì)劃未來(lái)將水印算法與其他文本生成加速技術(shù)（如推測(cè)抽樣）相結(jié)合，進(jìn)一步提升水印嵌入與檢測(cè)的效率與精度。同時(shí)，針對(duì)不同熵值下水印表現(xiàn)的深入研究，也將有助于擴(kuò)展其在更多實(shí)際應(yīng)用場(chǎng)景中的一致性表現(xiàn)。

不止是文字

除了文字，SynthID 還可以為音頻、圖像和視頻添加水印，幫助用戶確定內(nèi)容或部分內(nèi)容是否由谷歌的 AI 工具生成。

據(jù) Google DeepMind 官方博客介紹，在人工智能生成音樂(lè)方面，SynthID 將音頻波轉(zhuǎn)換為光譜圖，二維可視化地展示聲音中頻率范圍隨時(shí)間的演變。在計(jì)算出光譜圖后，數(shù)字水印被添加到其中，在轉(zhuǎn)換回波形時(shí)，利用音頻屬性確保水印人耳聽(tīng)不到，不影響聆聽(tīng)體驗(yàn)。

在人工智能生成圖像和視頻方面，SynthID 將人眼無(wú)法察覺(jué)的數(shù)字水印直接添加到圖像像素或視頻的每一幀中。經(jīng)過(guò)精心設(shè)計(jì)，不影響圖像或視頻質(zhì)量，即使經(jīng)過(guò)裁剪、添加濾鏡、更改顏色、更改幀速率以及各種有損壓縮方案保存等修改，水印依然保持可檢測(cè)性。

Google DeepMind 表示，通過(guò)開(kāi)源代碼，更多的人將可以使用該工具加水印，并確定文本輸出是否來(lái)自他們自己的 LLM，從而構(gòu)建可信的 AI。

隨著生成式 AI 技術(shù)的普及，信息透明性和追蹤性變得至關(guān)重要。虛假信息的傳播不僅威脅著社會(huì)穩(wěn)定，也對(duì)企業(yè)聲譽(yù)和個(gè)人權(quán)益帶來(lái)了挑戰(zhàn)。SynthID 的推出，不僅為生成式 AI 文本的溯源和透明化提供了技術(shù)解決方案，也為應(yīng)對(duì)虛假信息的擴(kuò)散提供了新思路。

據(jù) Gartner 預(yù)測(cè)，到 2028 年，超過(guò) 50%的企業(yè)將開(kāi)始采用專為應(yīng)對(duì)虛假信息設(shè)計(jì)的產(chǎn)品和技術(shù)，而目前這一比例還不到 5%。在未來(lái)，像 SynthID 這樣的工具或?qū)楦餍袠I(yè)提供強(qiáng)有力的保障，幫助社會(huì)在信息泛濫的風(fēng)暴中保持信任和透明。

作者：田小婷

編輯：學(xué)術(shù)君

“揭穿”一切！AI有“隱形指紋”了？

“揭穿”一切！AI有“隱形指紋”了？