最近,被稱為“OpenAI最強(qiáng)競對”的大模型公司 Anthropic 重磅發(fā)布了其第三代人工智能(AI)模型 ——Claude 3 系列模型,包括 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku。
其中,Claude 3 Opu 為 Claude 3 系列模型的最強(qiáng)版本,具有接近人類的理解能力,可以靈巧地處理開放式提示和復(fù)雜的任務(wù),根據(jù)官方給到的資料,其性能全面超過了 GPT-4。
值得一提的是,Claude 3 系列模型具有與其他領(lǐng)先模型同等的復(fù)雜視覺功能,可以處理各種視覺格式,包括照片、圖表、圖形和技術(shù)圖表。
Anthropic 在其官方 X 上表示,Claude 3 系列模型“在推理、數(shù)學(xué)、編碼、多語言理解和視覺方面樹立了新的行業(yè)基準(zhǔn)”。
據(jù)介紹,Claude 3 Opus 和 Claude 3 Sonnet 現(xiàn)已可以通過 API 直接訪問。目前,API 也已全面開放,開發(fā)人員可立即開始使用這些模型。
另外,Claude 3 Sonnet 還可以供部分地區(qū)的用戶在網(wǎng)站(http://claude.ai)上免費(fèi)體驗(yàn),而 Claude 3 Opus 的使用權(quán)限,則只開放給了 Claude Pro 用戶。
此外,Anthropic 團(tuán)隊(duì)還表示,Claude 3 系列模型解決了之前模型經(jīng)常出現(xiàn)“不必要的拒絕”的問題。
智能新標(biāo)準(zhǔn)
評測結(jié)果顯示,Claude 3 Opus 在 AI 系統(tǒng)的大多數(shù)常用評估基準(zhǔn)上都優(yōu)于同類產(chǎn)品,包括本科生水平的專家知識(shí)(MMLU)、研究生水平的專家推理(GPQA)、基礎(chǔ)數(shù)學(xué)(GSM8K)等。它在復(fù)雜任務(wù)上表現(xiàn)出了接近人類水平的理解力和流暢性,“引領(lǐng)著通用智能的前沿”。
所有 Claude 3 模型在分析和預(yù)測、細(xì)微內(nèi)容創(chuàng)建、代碼生成以及西班牙語、日語和法語等非英語語言對話方面的能力都得到了提高。
近乎即時(shí)的結(jié)果
Claude 3 系列模型支持實(shí)時(shí)客戶聊天、自動(dòng)完成和數(shù)據(jù)提取任務(wù),在這些任務(wù)中,響應(yīng)是即時(shí)和實(shí)時(shí)的。
其中,Claude 3 Haiku 是市場上同智能類別中速度最快、性價(jià)比最高的模型。它可以在三秒內(nèi)讀取 arXiv 上一篇信息和數(shù)據(jù)密集的研究論文(約 10k token),并附帶圖表和圖形。
在絕大多數(shù)工作負(fù)載中,Claude 3 Sonnet 的智能水平比 Claude 2 和 Claude 2.1 高出了 2 倍。它在知識(shí)檢索或銷售自動(dòng)化等要求快速響應(yīng)的任務(wù)中表現(xiàn)出色。Claude 3 Opus 的速度要慢一些,與 Claude 2 和 Claude 2.1 類似,但智能水平更高。
準(zhǔn)確性提高
與 Claude 2.1 相比,Claude 3 Opus 在具有挑戰(zhàn)性的開放式問題上的準(zhǔn)確率(或正確答案)提高了兩倍,同時(shí)也減少了錯(cuò)誤答案。
除了做出更可信的回答外,Claude 3 系列模型為來將啟用引用功能,這樣就可以通過指出參考資料中的精確句子來驗(yàn)證答案。
200K 上下文窗口和近乎完美的記憶
現(xiàn)在,Claude 3 系列模型可提供 200K 上下文窗口。不過,所有三種型號(hào)都能接受超過 100 萬個(gè) token 的輸入,未來也可能會(huì)向需要增強(qiáng)處理能力的特定客戶提供這種服務(wù)。另外,Claude 3 Opus 實(shí)現(xiàn)了接近完美的召回率,準(zhǔn)確率超過 99%。
Anthropic 團(tuán)隊(duì)表示,為提高模型的安全性和透明度,他們將繼續(xù)開發(fā)諸如憲法人工智能(Constitutional AI)等方法,并對模型進(jìn)行微調(diào),以減輕新模式可能帶來的隱私問題。
雖然與之前的模型相比,Claude 3 系列模型在生物知識(shí)、網(wǎng)絡(luò)相關(guān)知識(shí)和自主性等關(guān)鍵指標(biāo)上取得了進(jìn)步,但根據(jù)“負(fù)責(zé)任擴(kuò)展政策”( Responsible Scaling Policy),仍處于 AI 安全等級(jí) 2(ASL-2)。紅隊(duì)評估結(jié)果顯示,Claude 3 系列模型目前造成災(zāi)難性風(fēng)險(xiǎn)的可能性微乎其微。
更易于使用
Claude 3 系列模型更善于遵循復(fù)雜的多步驟指令。它們尤其擅長遵循品牌聲音和響應(yīng)準(zhǔn)則,并開發(fā)出用戶可以信賴的面向客戶的體驗(yàn)。此外,Claude 3 系列模型更善于以 JSON 等格式生成流行的結(jié)構(gòu)化輸出,從而更易于指導(dǎo)自然語言分類和情感分析等用例。
在官方博客的最后,Anthropic 團(tuán)隊(duì)寫道:
“在推動(dòng) AI 能力發(fā)展的同時(shí),我們也同樣致力于確保我們的安全防護(hù)措施能夠跟上性能飛躍的步伐。我們的假設(shè)是,站在 AI 發(fā)展的前沿是引導(dǎo)其走向積極社會(huì)成果的最有效方式。”
參考鏈接:
https://www.anthropic.com/news/claude-3-family