導(dǎo)讀:2023年10月20-21日,以“智能涌現(xiàn) 生成未來(lái)”為主題的第二十五屆中國(guó)科協(xié)年會(huì)通用人工智能產(chǎn)業(yè)創(chuàng)新發(fā)展論壇在安徽省合肥市成功召開(kāi)。中國(guó)科學(xué)院自動(dòng)化研究所紫東太初大模型研究中心常務(wù)副主任、武漢人工智能研究院院長(zhǎng)王金橋受邀出席并作題為“視覺(jué)大模型的實(shí)踐與思考”的主題報(bào)告。報(bào)告指出,隨著自監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練模型爆發(fā)式發(fā)展,以ChatGPT為代表的語(yǔ)言預(yù)訓(xùn)練大模型取得了顯著進(jìn)步,但視覺(jué)的多任務(wù)統(tǒng)一模型仍存在許多問(wèn)題亟待解決。報(bào)告基于多任務(wù)統(tǒng)一學(xué)習(xí)的視覺(jué)自監(jiān)督預(yù)訓(xùn)練大模型學(xué)習(xí)機(jī)制和訓(xùn)練方法,探索了自回歸和重建損失的聯(lián)合優(yōu)化方法;提出面向通用物體分割的FastSAM的加速方法。
以下為報(bào)告全文。
ChatGPT推出以來(lái),大語(yǔ)言模型技術(shù)的發(fā)展取得突破性發(fā)展。然而,人工智能應(yīng)用的廣泛落地一直面臨著視覺(jué)通用性的關(guān)鍵挑戰(zhàn)。過(guò)去十年,人工智能廣泛應(yīng)用的通用性難題長(zhǎng)期存在。以前,我們側(cè)重于處理大數(shù)據(jù)、構(gòu)建小模型、解決小任務(wù),但這些模型的能力有限,主要的缺點(diǎn)在于依賴(lài)于大量標(biāo)注數(shù)據(jù)、泛化能力差,難以適應(yīng)不同場(chǎng)景。盡管目前技術(shù)上已經(jīng)取得了一些突破,但人工智能落地應(yīng)用仍然未能實(shí)現(xiàn)商業(yè)閉環(huán)。視覺(jué)與語(yǔ)言不同,實(shí)現(xiàn)通用的視覺(jué)能力尤為具有挑戰(zhàn)性,涉及到二維、三維、時(shí)間等多個(gè)維度的處理,需要解決復(fù)雜的設(shè)計(jì)、計(jì)算力、語(yǔ)言與視覺(jué)之間的對(duì)齊等問(wèn)題。
一、視覺(jué)領(lǐng)域面臨的挑戰(zhàn)
人類(lèi)的感知過(guò)程中,大約70%的信息是來(lái)自視覺(jué)。與語(yǔ)言不同,視覺(jué)信息是非結(jié)構(gòu)化的,所以訓(xùn)練視覺(jué)模型面臨著更大挑戰(zhàn)。如何實(shí)現(xiàn)視覺(jué)信息與語(yǔ)言單詞的對(duì)齊、如何激發(fā)多模態(tài)的涌現(xiàn)能力,都是亟待解決的復(fù)雜問(wèn)題,如圖1所示。視覺(jué)信息涵蓋多個(gè)維度,包括對(duì)象的外觀、形狀、顏色、質(zhì)地,以及與對(duì)象相關(guān)的場(chǎng)景和光照信息。此外,不同應(yīng)用場(chǎng)景,如人臉識(shí)別、車(chē)輛識(shí)別等,需要構(gòu)建不同的小模型,導(dǎo)致應(yīng)用的碎片化。視覺(jué)問(wèn)題還涉及長(zhǎng)尾問(wèn)題,與語(yǔ)言相比,視覺(jué)模型的部署成本相對(duì)較高。
圖1 視覺(jué)領(lǐng)域計(jì)算方法面臨的挑戰(zhàn)
二、視覺(jué)大模型研究現(xiàn)狀
在視覺(jué)領(lǐng)域,自監(jiān)督學(xué)習(xí)的應(yīng)用一直備受關(guān)注,尤其是通過(guò)預(yù)測(cè)下一個(gè)單詞實(shí)現(xiàn)海量學(xué)習(xí)。國(guó)內(nèi)外學(xué)者進(jìn)行了廣泛的研究,包括比對(duì)學(xué)習(xí)、自回歸預(yù)測(cè)和掩碼預(yù)測(cè)等方法,如圖2所示。然而,視覺(jué)自監(jiān)督學(xué)習(xí)仍面臨多個(gè)挑戰(zhàn)。由于視覺(jué)信息的多維性,需要考慮全局信息,同時(shí)也需要強(qiáng)調(diào)局部信息。不同的視覺(jué)任務(wù)涉及不同類(lèi)型的信息,如檢測(cè)、分割、分類(lèi)和回歸等,這增加了通用模型設(shè)計(jì)的復(fù)雜性。通用性和專(zhuān)用性之間存在一定矛盾,既要關(guān)注特定任務(wù)的識(shí)別,又要涵蓋全面的視覺(jué)知識(shí)來(lái)訓(xùn)練視覺(jué)模型。多任務(wù)學(xué)習(xí)和通用模型設(shè)計(jì)是當(dāng)前研究的重點(diǎn),盡管現(xiàn)有模型的能力仍然有限,特別是在處理未知類(lèi)別和自動(dòng)標(biāo)記方面存在挑戰(zhàn)。因此,解決這些問(wèn)題需要更多的研究和技術(shù)創(chuàng)新,以實(shí)現(xiàn)更通用和高性能的視覺(jué)學(xué)習(xí)。
圖2 視覺(jué)自監(jiān)督學(xué)習(xí)
2021年,隨著一系列視覺(jué)推理模型的涌現(xiàn),如ViLD、M-DETR等,視覺(jué)自監(jiān)督學(xué)習(xí)迎來(lái)迅速發(fā)展。與語(yǔ)言領(lǐng)域的大模型相比,視覺(jué)大模型在模型規(guī)模、訓(xùn)練數(shù)據(jù)、多任務(wù)學(xué)習(xí)和智能涌現(xiàn)方面仍有較大差距。因此,國(guó)內(nèi)外的研究機(jī)構(gòu)和公司,如META、Google、華為、商湯等都在持續(xù)改進(jìn)圖文融合模型。在圖文對(duì)話(huà)中,僅使用圖像對(duì)話(huà)往往信息量不夠,而圖文交錯(cuò)結(jié)合的回答能提供更精準(zhǔn)的信息和更豐富的體驗(yàn)。此外,將文本模態(tài)與視頻和聲音相結(jié)合也會(huì)提供不同的感知和理解。因此,通用的純視覺(jué)模型仍需進(jìn)一步的發(fā)展和完善。
圖3 視覺(jué)推理與生成
三、視覺(jué)大模型的探索和實(shí)踐
中國(guó)科學(xué)院自動(dòng)化研究所紫東太初大模型研究中心在視覺(jué)基礎(chǔ)模型領(lǐng)域進(jìn)行了大量探索,自2020年起,成立了國(guó)內(nèi)第一個(gè)大型模型研究中心。紫東太初大模型致力于構(gòu)建全站自主可控的大型模型,以確保數(shù)據(jù)安全和隱私;其次,在視覺(jué)模型領(lǐng)域,持續(xù)探索視覺(jué)自監(jiān)督學(xué)習(xí)的新路徑。引入可變形Transformer局部塊結(jié)構(gòu),它具有自適應(yīng)預(yù)測(cè)每個(gè)局部塊的空間位置和大小的能力,如圖4所示。這意味著模型可以根據(jù)目標(biāo)場(chǎng)景的結(jié)構(gòu)和語(yǔ)義信息,靈活地預(yù)測(cè)每個(gè)模塊的大小,從而解決傳統(tǒng)固定大小滑塊在處理語(yǔ)義結(jié)構(gòu)時(shí)的不完整性問(wèn)題。這種可變形結(jié)構(gòu)不僅有助于減少參數(shù)量,還能提高模型效率。
圖4 可形變視覺(jué)Transformer模型
此外,紫東太初大模型在視覺(jué)自監(jiān)督學(xué)習(xí)領(lǐng)域作出新的嘗試,如將掩碼的重建與比對(duì)學(xué)習(xí)相結(jié)合。在研究時(shí)不僅關(guān)注掩碼的重建特性,還注重相似度和比對(duì)損失,通過(guò)構(gòu)建動(dòng)態(tài)的視覺(jué)掩碼機(jī)制,顯著提高了模型的收斂速度。這一模型相較于傳統(tǒng)的比對(duì)學(xué)習(xí),其收斂速度通常能提高2-8倍,而且在大約100輪訓(xùn)練后,即可達(dá)到主流效果的精度水平。
在圖像重構(gòu)過(guò)程中,不僅考慮單一目標(biāo)或場(chǎng)景,還要深入挖掘目標(biāo)與場(chǎng)景、目標(biāo)與區(qū)域之間的有效關(guān)系。這使得多層次和多粒度的自監(jiān)督學(xué)習(xí)能夠?qū)崿F(xiàn),不再局限于單一目標(biāo)的學(xué)習(xí)方式。該方法能在樣本數(shù)量?jī)H占總樣本數(shù)1%-10%的情況下,超越傳統(tǒng)的自監(jiān)督方法,同時(shí)不受特定場(chǎng)景的限制,增強(qiáng)模型通用性和語(yǔ)義特性。
在視覺(jué)自監(jiān)督學(xué)習(xí)領(lǐng)域,紫東太初大模型提出了一些方法來(lái)應(yīng)對(duì)隨機(jī)采樣可能導(dǎo)致的不均勻性問(wèn)題。無(wú)論是掩碼重建還是自回歸方法,隨機(jī)采樣常常難以確保全面采樣和均勻分布。為了解決這一難題,紫東太初大模型引入了并行的掩碼機(jī)制,以確保采樣的數(shù)據(jù)相對(duì)均衡。另外,通過(guò)對(duì)損失函數(shù)進(jìn)行優(yōu)化,建立一致的預(yù)測(cè)損失,根據(jù)不同掩碼特性提高預(yù)測(cè)準(zhǔn)確性,如圖5所示。這一優(yōu)化將整個(gè)訓(xùn)練的效率提高了6.65倍,并在性能方面也取得了顯著提升。通過(guò)以上創(chuàng)新方法,紫東太初大模型實(shí)現(xiàn)了視覺(jué)編碼與自監(jiān)督訓(xùn)練的對(duì)齊,并通過(guò)弱監(jiān)督數(shù)據(jù)自適應(yīng)地實(shí)現(xiàn)語(yǔ)言和數(shù)據(jù)的對(duì)齊,為多模態(tài)學(xué)習(xí)帶來(lái)了新的可能性。
圖5 高效掩碼自洽模型
紫東太初大模型已成功建立了多模態(tài)環(huán)境下的多任務(wù)統(tǒng)一對(duì)齊機(jī)制,通過(guò)構(gòu)建多任務(wù)自回歸預(yù)測(cè)結(jié)構(gòu),實(shí)現(xiàn)模型的一致性。該視覺(jué)多任務(wù)統(tǒng)一模型,通過(guò)圖像和語(yǔ)言編碼,能夠以多邊形形式統(tǒng)一表示各種任務(wù),包括檢測(cè)、分割和關(guān)鍵點(diǎn)等。基于視覺(jué)知識(shí)的統(tǒng)一大型模型不再需要在不同場(chǎng)景下使用不同模型,而是能夠根據(jù)需要,輸出所需任務(wù)的結(jié)果。此外,紫東太初大模型還引入了基于視覺(jué)多任務(wù)的微調(diào)機(jī)制,使模型能夠根據(jù)指令輸出所需結(jié)果,無(wú)需構(gòu)建多個(gè)不同的模型,還可以通過(guò)反饋學(xué)習(xí)來(lái)進(jìn)一步完善意圖對(duì)齊和結(jié)果輸出。
四、視覺(jué)大模型應(yīng)用
首先,紫東太初大模型可以自動(dòng)識(shí)別海報(bào)中的內(nèi)容,其次,可以進(jìn)行知識(shí)進(jìn)行推理。第三,可以進(jìn)行工業(yè)場(chǎng)景自動(dòng)定位目標(biāo)應(yīng)用。最后,模型還具備判斷能力,能夠識(shí)別圖像中的對(duì)象,例如可以判斷出“這不是一棵樹(shù),而是一個(gè)穿著外套的男人”。
大模型還可以深入理解這些圖像中的情境和動(dòng)作。在圖7中,人們?cè)谶M(jìn)行拍照活動(dòng),其中一名女性持手機(jī)在拍照,另一張圖中描述了一個(gè)人在挑選衣服,這些場(chǎng)景是與新零售相關(guān)的應(yīng)用,大型模型能夠根據(jù)每個(gè)場(chǎng)景的需求提供長(zhǎng)尾問(wèn)題的解決能力。上述示例展示了大模型視覺(jué)模型具備的多種語(yǔ)義推理能力。
圖7 圖文理解/推理能力
除了通用模型,我們還研發(fā)了專(zhuān)門(mén)針對(duì)特定應(yīng)用的模型,其中一個(gè)顯著的例子是FastSAM,如圖8所示,它是一個(gè)通用目標(biāo)分割模型,性能比SAM高出50倍,在Hugging Face上177 like,Github已達(dá)5.8k stars。另一個(gè)重要應(yīng)用是工業(yè)異常檢測(cè),我們開(kāi)發(fā)了通用工業(yè)檢測(cè)模型,適應(yīng)于工業(yè)領(lǐng)域碎片化數(shù)據(jù)和有限樣本情況,能夠有效檢測(cè)任何文本描述的正常和異常情況,為工業(yè)環(huán)境帶來(lái)廣泛的應(yīng)用前景。
圖8 通用物體快速分割大模型:FastSAM
這些應(yīng)用覆蓋了圖像級(jí)別的少樣本數(shù)據(jù)集,尤其在工業(yè)數(shù)據(jù)集方面,模型性能顯著提升。在碎片化場(chǎng)景中,例如高鐵的缺陷檢測(cè),視覺(jué)大模型的初始化可以使基礎(chǔ)能力提高10%,再加入一些樣本后,精度可以提升30%。在開(kāi)放式場(chǎng)景中,例如道路缺陷檢測(cè),面對(duì)可能的各種障礙物,使用視覺(jué)大模型可提高巡檢精度10%,顯著降低30%的誤報(bào)率。
在醫(yī)療器械管理方面,原本需要人工操作的工作,現(xiàn)在通過(guò)大型模型,手術(shù)器械的準(zhǔn)備時(shí)間可以從一個(gè)小時(shí)縮短至半個(gè)小時(shí),培訓(xùn)護(hù)工的時(shí)間也大大減少,工作效率提高了30倍,精度高達(dá)到99%。使用一個(gè)模型可以實(shí)現(xiàn)智能化的管理,僅需2臺(tái)服務(wù)器即可為10家醫(yī)院的所有手術(shù)提供管理服務(wù)。
最后,交通違章違法檢測(cè)也將受益于大模型的泛化能力。通過(guò)積累的違章數(shù)據(jù),可以直接生成檢測(cè)模型,其精度基本能夠超過(guò)人工審核,目前已經(jīng)在全國(guó)60多個(gè)省市區(qū)縣部署。以上示例突顯了視覺(jué)大模型在多個(gè)領(lǐng)域的廣泛應(yīng)用。
盡管視覺(jué)大模型在通用能力上具有明顯優(yōu)勢(shì),但由于結(jié)合了視覺(jué)和語(yǔ)言,推理成本相對(duì)較高。未來(lái),還需構(gòu)建更高效的模型以及提升多場(chǎng)景能力以?xún)?yōu)化推理過(guò)程。此外,基于目前OCR和分割方面呈現(xiàn)出的強(qiáng)大潛力,未來(lái)還需繼續(xù)專(zhuān)注于通過(guò)指令實(shí)現(xiàn)更精確的理解和生成。我們已經(jīng)推出多模態(tài)照片說(shuō)話(huà)平臺(tái),目前已對(duì)外開(kāi)放,每個(gè)用戶(hù)都可以生成更加精準(zhǔn)的個(gè)性化視頻內(nèi)容。
最后,由于數(shù)據(jù)涉及敏感信息和語(yǔ)義信息,視覺(jué)大模型格外強(qiáng)調(diào)視覺(jué)數(shù)據(jù)的安全性和可控性。語(yǔ)義信息和內(nèi)涵必須與價(jià)值觀和形態(tài)意識(shí)相一致,因此需更加關(guān)注數(shù)據(jù)的清洗和生成過(guò)程,以確保數(shù)據(jù)的安全性和可控性。
(本文根據(jù)作者論壇報(bào)告速記整理而成,經(jīng)作者授權(quán)發(fā)布)
作者簡(jiǎn)介:
王金橋,中國(guó)科學(xué)院自動(dòng)化研究所紫東太初大模型研究中心常務(wù)副主任,研究員,博導(dǎo),武漢人工智能研究院院長(zhǎng),中國(guó)科學(xué)院大學(xué)人工智能學(xué)院崗位教授,多模態(tài)人工智能產(chǎn)業(yè)聯(lián)盟秘書(shū)長(zhǎng),主要從事多模態(tài)大模型、視頻分析與檢索、大規(guī)模目標(biāo)識(shí)別等方面的研究。共發(fā)表包括IEEE國(guó)際權(quán)威期刊和頂級(jí)會(huì)議論文300余篇,國(guó)際期刊50余篇,國(guó)際會(huì)議220余篇。完成國(guó)家標(biāo)準(zhǔn)提案3項(xiàng),發(fā)明專(zhuān)利36項(xiàng),10項(xiàng)國(guó)際視覺(jué)算法競(jìng)賽冠軍,新時(shí)代中國(guó)經(jīng)濟(jì)創(chuàng)新人物,北京市科技進(jìn)步一等獎(jiǎng),世界人工智能大會(huì)SAIL獎(jiǎng),吳文俊人工智能科技進(jìn)步二等獎(jiǎng),中國(guó)發(fā)明創(chuàng)新銀獎(jiǎng)。