版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

OpenAI最強競對官宣:大模型可以使用電腦了!

學(xué)術(shù)頭條
一起見證人類探索征途上的每一個重大突破。
收藏

微信圖片_20241024085318.png

最近,OpenAI 最強競對 Anthropic 宣布:現(xiàn)在,Claude 可以使用電腦了。

據(jù)介紹,最新版本的 Claude 3.5 Sonnet 在通過適當(dāng)?shù)能浖O(shè)置運行后,可以按照用戶的指令在電腦屏幕上移動光標(biāo),點擊相關(guān)位置,并通過虛擬鍵盤輸入信息,模擬人們與電腦進行交互的方式。

Anthropic 認為,這項技能--目前處于公開測試階段--代表了人工智能(AI)領(lǐng)域的重大突破。

在最新博客文章中,他們分享了在開發(fā)計算機使用(computer use)模型過程中的一些研究心得,以及如何讓這些模型更加安全。

圖蟲創(chuàng)意-1615895691930107911.jpeg

為什么要開發(fā) computer use?

為什么這項新功能很重要?大量的現(xiàn)代工作都是通過計算機完成的。讓人工智能能夠像人類一樣直接與計算機軟件進行交互,將開啟大量應(yīng)用,而這些應(yīng)用對于目前的人工智能助手來說根本無法實現(xiàn)。

在過去幾年里,強大的人工智能發(fā)展已經(jīng)取得了許多重要的里程碑式成果--例如,能夠進行復(fù)雜的邏輯推理,能夠看到和理解圖像。下一個前沿領(lǐng)域是計算機應(yīng)用:人工智能模型無需通過定制工具進行交互,而是可以根據(jù)指令使用任何軟件。

研究過程

Anthropic 表示,他們以前在工具使用和多模態(tài)方面的工作為這些新的計算機使用技能奠定了基礎(chǔ)。操作計算機需要具備查看和解釋圖像的能力,這里指的是計算機屏幕上的圖像。它還要求推理如何以及何時根據(jù)屏幕上的內(nèi)容執(zhí)行特定操作。結(jié)合這些能力,他們訓(xùn)練 Claude 解讀屏幕上的內(nèi)容,然后使用可用的軟件工具執(zhí)行任務(wù)。

當(dāng)開發(fā)人員讓 Claude 使用一款計算機軟件并賦予其必要的訪問權(quán)限時,Claude 會查看用戶可見內(nèi)容的屏幕截圖,然后計算光標(biāo)需要縱向或橫向移動多少像素才能點擊正確的位置。訓(xùn)練 Claude 準(zhǔn)確計算像素至關(guān)重要。如果沒有這項技能,模型就很難下達鼠標(biāo)指令--這就好比模型在回答“‘香蕉’這個詞中有多少個 A?”這樣看似簡單的問題時經(jīng)常會感到吃力一樣。

令人感到驚訝的是,Claude 在接受了計算器和文本編輯器等幾款簡單軟件的 computer-use 訓(xùn)練后(出于安全考慮,模型在訓(xùn)練期間無法訪問互聯(lián)網(wǎng)),竟然能夠迅速地掌握這些技能。結(jié)合 Claude 的其他技能,這種訓(xùn)練使它具備了非凡的能力,能夠?qū)⒂脩舻臅嫣崾巨D(zhuǎn)化為一連串的邏輯步驟,然后在計算機上進行操作。他們觀察到,該模型甚至?xí)谟龅秸系K時進行自我糾正并重試任務(wù)。

雖然他們在取得初步突破后很快就取得了后續(xù)進展,但這需要大量的嘗試和錯誤才能實現(xiàn)。Anthropic 的一些研究人員指出,開發(fā) computer use 模型的過程與他們初入人工智能領(lǐng)域時想象的“理想化”人工智能研究過程非常接近:不斷迭代,反復(fù)回到繪圖板(drawing board),直到取得進展。

目前,Claude 是像人一樣使用計算機的 SOTA 模型,即通過觀察屏幕并采取相應(yīng)行動。在 OSWorld 為測試開發(fā)者讓模型使用計算機的嘗試而創(chuàng)建的一項評估中,Claude 目前的得分率為 14.9%。盡管遠未達到人類水平(一般為 70%-75%),但卻遠遠高于同類產(chǎn)品中排名第二的人工智能模型的 7.7%。

安全使用計算機

人工智能的每一次進步都會帶來新的安全挑戰(zhàn)。computer use 主要是降低人工智能系統(tǒng)應(yīng)用其現(xiàn)有認知技能的門檻,而不是從根本上提高這些技能,因此 Anthropic 對 computer use 的主要關(guān)注點是當(dāng)前的危害而非未來的危害。他們發(fā)現(xiàn),更新后的 Claude 3.5 Sonnet(包括其新的 computer use 技能)仍處于人工智能安全等級 2 級,也就是說,它并不需要比 Anthropic 現(xiàn)有的安全和安保措施更高的標(biāo)準(zhǔn)。

當(dāng)未來的模型因存在災(zāi)難性風(fēng)險而需要人工智能安全等級 3 級或 4 級保障措施時,computer use 可能會加劇這些風(fēng)險。Anthropic 判斷,在模型還只需要人工智能安全等級 2 的保障措施時,現(xiàn)在就引入 computer use 可能會更好。這意味著,他們可以在風(fēng)險過高之前開始處理任何安全問題,而不是在風(fēng)險更為嚴(yán)重的模型中首次添加 computer use 功能。

因此,Anthropic 的信任與安全團隊對新的 computer use 模型進行了廣泛的分析,以找出潛在的漏洞。他們發(fā)現(xiàn)的一個問題是“提示注入”--這是一種網(wǎng)絡(luò)攻擊,即向人工智能模型輸入惡意指令,使其推翻先前的指令或執(zhí)行偏離用戶初衷的意外操作。由于 Claude 可以解讀來自聯(lián)網(wǎng)計算機的屏幕截圖,因此有可能接觸到包括提示注入攻擊在內(nèi)的內(nèi)容。

使用公開測試版 Claude computer-use 版本的用戶應(yīng)采取相關(guān)預(yù)防措施,將此類風(fēng)險降至最低。作為開發(fā)人員的資源,Anthropic 在參考實現(xiàn)中提供了進一步的指導(dǎo)。

與任何人工智能功能一樣,用戶也有可能故意濫用 Claude 的計算機技能。Anthropic 開發(fā)了分類器和其他方法來標(biāo)記和減少這類濫用。

Anthropic 表示,根據(jù)他們對數(shù)據(jù)隱私采取的標(biāo)準(zhǔn)方法,默認情況下,他們不會對用戶提交的數(shù)據(jù)(包括 Claude 收到的任何截圖)訓(xùn)練他們的人工智能生成模型。

computer-use 的未來

Computer use 是一種完全不同的人工智能開發(fā)方法。到目前為止,LLM 開發(fā)人員一直在讓工具與模型相匹配,創(chuàng)造定制環(huán)境,讓人工智能使用專門設(shè)計的工具來完成各種任務(wù)?,F(xiàn)在,Anthropic 可以讓模型適應(yīng)工具-- Claude 可以適應(yīng)人類日常使用的計算機環(huán)境。他們的目標(biāo)是讓克勞德能夠像人一樣使用已有的計算機軟件。

當(dāng)然,還有很多事情要做。Claude 使用計算機的速度仍然很慢,而且經(jīng)常出錯。人們在計算機上經(jīng)常做的許多操作(拖動、縮放等),Claude 還無法嘗試。Claude 的屏幕視圖具有“翻書”的性質(zhì)--截圖并將它們拼湊在一起,而不是觀察更細粒度的視頻流--這意味著它可能會錯過短暫的操作或通知。

Anthropic 表示,即使在為今天的發(fā)布錄制 Computer use 演示時,他們也遇到了一些有趣的錯誤。例如,Claude 不小心點擊了停止長時間屏幕錄制,導(dǎo)致所有鏡頭丟失,以及 Claude 突然中斷了編碼演示,開始瀏覽黃石國家公園的照片。

Anthropic 預(yù)計,Computer use 將迅速改善,變得更快、更可靠,對用戶想要完成的任務(wù)更有用。對于軟件開發(fā)經(jīng)驗較少的人來說,它也將變得更容易實現(xiàn)。

原文鏈接:https://www.anthropic.com/news/developing-computer-use

編譯:學(xué)術(shù)君

評論
沖沖
大學(xué)士級
綜上所述,AI大模型可以在個人電腦上使用,這得益于開源項目的支持、技術(shù)進步、硬件性能提升、軟件工具的易用性以及模型優(yōu)化。隨著技術(shù)的不斷發(fā)展,未來可能會有更多的AI大模型應(yīng)用場景被開發(fā)出來!
2024-10-24
臭皮匠心
學(xué)士級
Anthropic的這一宣布標(biāo)志著人工智能技術(shù)的一個重要里程碑。然而,就像任何新技術(shù)一樣,它也帶來了新的挑戰(zhàn)和責(zé)任。我們期待看到這項技術(shù)在未來的發(fā)展,并希望它能夠在確保安全的前提下,為人類帶來更多的便利和創(chuàng)新。
2024-10-24
科普:zhf
少師級
隨著AI技術(shù)的發(fā)展,社會也需要不斷地審視和更新相關(guān)的倫理準(zhǔn)則和技術(shù)規(guī)范,確保技術(shù)進步的同時不會帶來不可預(yù)見的風(fēng)險。Anthropic等公司持續(xù)分享他們的研究成果和安全實踐,有助于整個行業(yè)共同進步,構(gòu)建更加可靠和負責(zé)任的AI生態(tài)。
2024-10-24