免费大片黄在线观看18中文,人妻少妇征服沉沦

導(dǎo)讀：2023年10月20-21日，以“智能涌現(xiàn) 生成未來(lái)”為主題的第二十五屆中國(guó)科協(xié)年會(huì)通用人工智能產(chǎn)業(yè)創(chuàng)新發(fā)展論壇在安徽省合肥市成功召開(kāi)。中國(guó)科學(xué)院自動(dòng)化研究所紫東太初大模型研究中心常務(wù)副主任、武漢人工智能研究院院長(zhǎng)王金橋受邀出席并作題為“視覺(jué)大模型的實(shí)踐與思考”的主題報(bào)告。報(bào)告指出，隨著自監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練模型爆發(fā)式發(fā)展，以ChatGPT為代表的語(yǔ)言預(yù)訓(xùn)練大模型取得了顯著進(jìn)步，但視覺(jué)的多任務(wù)統(tǒng)一模型仍存在許多問(wèn)題亟待解決。報(bào)告基于多任務(wù)統(tǒng)一學(xué)習(xí)的視覺(jué)自監(jiān)督預(yù)訓(xùn)練大模型學(xué)習(xí)機(jī)制和訓(xùn)練方法，探索了自回歸和重建損失的聯(lián)合優(yōu)化方法；提出面向通用物體分割的FastSAM的加速方法。

以下為報(bào)告全文。

ChatGPT推出以來(lái)，大語(yǔ)言模型技術(shù)的發(fā)展取得突破性發(fā)展。然而，人工智能應(yīng)用的廣泛落地一直面臨著視覺(jué)通用性的關(guān)鍵挑戰(zhàn)。過(guò)去十年，人工智能廣泛應(yīng)用的通用性難題長(zhǎng)期存在。以前，我們側(cè)重于處理大數(shù)據(jù)、構(gòu)建小模型、解決小任務(wù)，但這些模型的能力有限，主要的缺點(diǎn)在于依賴(lài)于大量標(biāo)注數(shù)據(jù)、泛化能力差，難以適應(yīng)不同場(chǎng)景。盡管目前技術(shù)上已經(jīng)取得了一些突破，但人工智能落地應(yīng)用仍然未能實(shí)現(xiàn)商業(yè)閉環(huán)。視覺(jué)與語(yǔ)言不同，實(shí)現(xiàn)通用的視覺(jué)能力尤為具有挑戰(zhàn)性，涉及到二維、三維、時(shí)間等多個(gè)維度的處理，需要解決復(fù)雜的設(shè)計(jì)、計(jì)算力、語(yǔ)言與視覺(jué)之間的對(duì)齊等問(wèn)題。

一、視覺(jué)領(lǐng)域面臨的挑戰(zhàn)

人類(lèi)的感知過(guò)程中，大約70%的信息是來(lái)自視覺(jué)。與語(yǔ)言不同，視覺(jué)信息是非結(jié)構(gòu)化的，所以訓(xùn)練視覺(jué)模型面臨著更大挑戰(zhàn)。如何實(shí)現(xiàn)視覺(jué)信息與語(yǔ)言單詞的對(duì)齊、如何激發(fā)多模態(tài)的涌現(xiàn)能力，都是亟待解決的復(fù)雜問(wèn)題，如圖1所示。視覺(jué)信息涵蓋多個(gè)維度，包括對(duì)象的外觀、形狀、顏色、質(zhì)地，以及與對(duì)象相關(guān)的場(chǎng)景和光照信息。此外，不同應(yīng)用場(chǎng)景，如人臉識(shí)別、車(chē)輛識(shí)別等，需要構(gòu)建不同的小模型，導(dǎo)致應(yīng)用的碎片化。視覺(jué)問(wèn)題還涉及長(zhǎng)尾問(wèn)題，與語(yǔ)言相比，視覺(jué)模型的部署成本相對(duì)較高。

圖1 視覺(jué)領(lǐng)域計(jì)算方法面臨的挑戰(zhàn)

二、視覺(jué)大模型研究現(xiàn)狀

在視覺(jué)領(lǐng)域，自監(jiān)督學(xué)習(xí)的應(yīng)用一直備受關(guān)注，尤其是通過(guò)預(yù)測(cè)下一個(gè)單詞實(shí)現(xiàn)海量學(xué)習(xí)。國(guó)內(nèi)外學(xué)者進(jìn)行了廣泛的研究，包括比對(duì)學(xué)習(xí)、自回歸預(yù)測(cè)和掩碼預(yù)測(cè)等方法，如圖2所示。然而，視覺(jué)自監(jiān)督學(xué)習(xí)仍面臨多個(gè)挑戰(zhàn)。由于視覺(jué)信息的多維性，需要考慮全局信息，同時(shí)也需要強(qiáng)調(diào)局部信息。不同的視覺(jué)任務(wù)涉及不同類(lèi)型的信息，如檢測(cè)、分割、分類(lèi)和回歸等，這增加了通用模型設(shè)計(jì)的復(fù)雜性。通用性和專(zhuān)用性之間存在一定矛盾，既要關(guān)注特定任務(wù)的識(shí)別，又要涵蓋全面的視覺(jué)知識(shí)來(lái)訓(xùn)練視覺(jué)模型。多任務(wù)學(xué)習(xí)和通用模型設(shè)計(jì)是當(dāng)前研究的重點(diǎn)，盡管現(xiàn)有模型的能力仍然有限，特別是在處理未知類(lèi)別和自動(dòng)標(biāo)記方面存在挑戰(zhàn)。因此，解決這些問(wèn)題需要更多的研究和技術(shù)創(chuàng)新，以實(shí)現(xiàn)更通用和高性能的視覺(jué)學(xué)習(xí)。

圖2 視覺(jué)自監(jiān)督學(xué)習(xí)

2021年，隨著一系列視覺(jué)推理模型的涌現(xiàn)，如ViLD、M-DETR等，視覺(jué)自監(jiān)督學(xué)習(xí)迎來(lái)迅速發(fā)展。與語(yǔ)言領(lǐng)域的大模型相比，視覺(jué)大模型在模型規(guī)模、訓(xùn)練數(shù)據(jù)、多任務(wù)學(xué)習(xí)和智能涌現(xiàn)方面仍有較大差距。因此，國(guó)內(nèi)外的研究機(jī)構(gòu)和公司，如META、Google、華為、商湯等都在持續(xù)改進(jìn)圖文融合模型。在圖文對(duì)話(huà)中，僅使用圖像對(duì)話(huà)往往信息量不夠，而圖文交錯(cuò)結(jié)合的回答能提供更精準(zhǔn)的信息和更豐富的體驗(yàn)。此外，將文本模態(tài)與視頻和聲音相結(jié)合也會(huì)提供不同的感知和理解。因此，通用的純視覺(jué)模型仍需進(jìn)一步的發(fā)展和完善。

圖3 視覺(jué)推理與生成

三、視覺(jué)大模型的探索和實(shí)踐

中國(guó)科學(xué)院自動(dòng)化研究所紫東太初大模型研究中心在視覺(jué)基礎(chǔ)模型領(lǐng)域進(jìn)行了大量探索，自2020年起，成立了國(guó)內(nèi)第一個(gè)大型模型研究中心。紫東太初大模型致力于構(gòu)建全站自主可控的大型模型，以確保數(shù)據(jù)安全和隱私；其次，在視覺(jué)模型領(lǐng)域，持續(xù)探索視覺(jué)自監(jiān)督學(xué)習(xí)的新路徑。引入可變形Transformer局部塊結(jié)構(gòu)，它具有自適應(yīng)預(yù)測(cè)每個(gè)局部塊的空間位置和大小的能力，如圖4所示。這意味著模型可以根據(jù)目標(biāo)場(chǎng)景的結(jié)構(gòu)和語(yǔ)義信息，靈活地預(yù)測(cè)每個(gè)模塊的大小，從而解決傳統(tǒng)固定大小滑塊在處理語(yǔ)義結(jié)構(gòu)時(shí)的不完整性問(wèn)題。這種可變形結(jié)構(gòu)不僅有助于減少參數(shù)量，還能提高模型效率。

圖4 可形變視覺(jué)Transformer模型

此外，紫東太初大模型在視覺(jué)自監(jiān)督學(xué)習(xí)領(lǐng)域作出新的嘗試，如將掩碼的重建與比對(duì)學(xué)習(xí)相結(jié)合。在研究時(shí)不僅關(guān)注掩碼的重建特性，還注重相似度和比對(duì)損失，通過(guò)構(gòu)建動(dòng)態(tài)的視覺(jué)掩碼機(jī)制，顯著提高了模型的收斂速度。這一模型相較于傳統(tǒng)的比對(duì)學(xué)習(xí)，其收斂速度通常能提高2-8倍，而且在大約100輪訓(xùn)練后，即可達(dá)到主流效果的精度水平。

在圖像重構(gòu)過(guò)程中，不僅考慮單一目標(biāo)或場(chǎng)景，還要深入挖掘目標(biāo)與場(chǎng)景、目標(biāo)與區(qū)域之間的有效關(guān)系。這使得多層次和多粒度的自監(jiān)督學(xué)習(xí)能夠?qū)崿F(xiàn)，不再局限于單一目標(biāo)的學(xué)習(xí)方式。該方法能在樣本數(shù)量?jī)H占總樣本數(shù)1%-10%的情況下，超越傳統(tǒng)的自監(jiān)督方法，同時(shí)不受特定場(chǎng)景的限制，增強(qiáng)模型通用性和語(yǔ)義特性。

在視覺(jué)自監(jiān)督學(xué)習(xí)領(lǐng)域，紫東太初大模型提出了一些方法來(lái)應(yīng)對(duì)隨機(jī)采樣可能導(dǎo)致的不均勻性問(wèn)題。無(wú)論是掩碼重建還是自回歸方法，隨機(jī)采樣常常難以確保全面采樣和均勻分布。為了解決這一難題，紫東太初大模型引入了并行的掩碼機(jī)制，以確保采樣的數(shù)據(jù)相對(duì)均衡。另外，通過(guò)對(duì)損失函數(shù)進(jìn)行優(yōu)化，建立一致的預(yù)測(cè)損失，根據(jù)不同掩碼特性提高預(yù)測(cè)準(zhǔn)確性，如圖5所示。這一優(yōu)化將整個(gè)訓(xùn)練的效率提高了6.65倍，并在性能方面也取得了顯著提升。通過(guò)以上創(chuàng)新方法，紫東太初大模型實(shí)現(xiàn)了視覺(jué)編碼與自監(jiān)督訓(xùn)練的對(duì)齊，并通過(guò)弱監(jiān)督數(shù)據(jù)自適應(yīng)地實(shí)現(xiàn)語(yǔ)言和數(shù)據(jù)的對(duì)齊，為多模態(tài)學(xué)習(xí)帶來(lái)了新的可能性。

圖5 高效掩碼自洽模型

紫東太初大模型已成功建立了多模態(tài)環(huán)境下的多任務(wù)統(tǒng)一對(duì)齊機(jī)制，通過(guò)構(gòu)建多任務(wù)自回歸預(yù)測(cè)結(jié)構(gòu)，實(shí)現(xiàn)模型的一致性。該視覺(jué)多任務(wù)統(tǒng)一模型，通過(guò)圖像和語(yǔ)言編碼，能夠以多邊形形式統(tǒng)一表示各種任務(wù)，包括檢測(cè)、分割和關(guān)鍵點(diǎn)等。基于視覺(jué)知識(shí)的統(tǒng)一大型模型不再需要在不同場(chǎng)景下使用不同模型，而是能夠根據(jù)需要，輸出所需任務(wù)的結(jié)果。此外，紫東太初大模型還引入了基于視覺(jué)多任務(wù)的微調(diào)機(jī)制，使模型能夠根據(jù)指令輸出所需結(jié)果，無(wú)需構(gòu)建多個(gè)不同的模型，還可以通過(guò)反饋學(xué)習(xí)來(lái)進(jìn)一步完善意圖對(duì)齊和結(jié)果輸出。

四、視覺(jué)大模型應(yīng)用

首先，紫東太初大模型可以自動(dòng)識(shí)別海報(bào)中的內(nèi)容，其次，可以進(jìn)行知識(shí)進(jìn)行推理。第三，可以進(jìn)行工業(yè)場(chǎng)景自動(dòng)定位目標(biāo)應(yīng)用。最后，模型還具備判斷能力，能夠識(shí)別圖像中的對(duì)象，例如可以判斷出“這不是一棵樹(shù)，而是一個(gè)穿著外套的男人”。

大模型還可以深入理解這些圖像中的情境和動(dòng)作。在圖7中，人們?cè)谶M(jìn)行拍照活動(dòng)，其中一名女性持手機(jī)在拍照，另一張圖中描述了一個(gè)人在挑選衣服，這些場(chǎng)景是與新零售相關(guān)的應(yīng)用，大型模型能夠根據(jù)每個(gè)場(chǎng)景的需求提供長(zhǎng)尾問(wèn)題的解決能力。上述示例展示了大模型視覺(jué)模型具備的多種語(yǔ)義推理能力。

圖7 圖文理解/推理能力

除了通用模型，我們還研發(fā)了專(zhuān)門(mén)針對(duì)特定應(yīng)用的模型，其中一個(gè)顯著的例子是FastSAM，如圖8所示，它是一個(gè)通用目標(biāo)分割模型，性能比SAM高出50倍，在Hugging Face上177 like，Github已達(dá)5.8k stars。另一個(gè)重要應(yīng)用是工業(yè)異常檢測(cè)，我們開(kāi)發(fā)了通用工業(yè)檢測(cè)模型，適應(yīng)于工業(yè)領(lǐng)域碎片化數(shù)據(jù)和有限樣本情況，能夠有效檢測(cè)任何文本描述的正常和異常情況，為工業(yè)環(huán)境帶來(lái)廣泛的應(yīng)用前景。

圖8 通用物體快速分割大模型:FastSAM

這些應(yīng)用覆蓋了圖像級(jí)別的少樣本數(shù)據(jù)集，尤其在工業(yè)數(shù)據(jù)集方面，模型性能顯著提升。在碎片化場(chǎng)景中，例如高鐵的缺陷檢測(cè)，視覺(jué)大模型的初始化可以使基礎(chǔ)能力提高10%，再加入一些樣本后，精度可以提升30%。在開(kāi)放式場(chǎng)景中，例如道路缺陷檢測(cè)，面對(duì)可能的各種障礙物，使用視覺(jué)大模型可提高巡檢精度10%，顯著降低30%的誤報(bào)率。

在醫(yī)療器械管理方面，原本需要人工操作的工作，現(xiàn)在通過(guò)大型模型，手術(shù)器械的準(zhǔn)備時(shí)間可以從一個(gè)小時(shí)縮短至半個(gè)小時(shí)，培訓(xùn)護(hù)工的時(shí)間也大大減少，工作效率提高了30倍，精度高達(dá)到99%。使用一個(gè)模型可以實(shí)現(xiàn)智能化的管理，僅需2臺(tái)服務(wù)器即可為10家醫(yī)院的所有手術(shù)提供管理服務(wù)。

最后，交通違章違法檢測(cè)也將受益于大模型的泛化能力。通過(guò)積累的違章數(shù)據(jù)，可以直接生成檢測(cè)模型，其精度基本能夠超過(guò)人工審核，目前已經(jīng)在全國(guó)60多個(gè)省市區(qū)縣部署。以上示例突顯了視覺(jué)大模型在多個(gè)領(lǐng)域的廣泛應(yīng)用。

盡管視覺(jué)大模型在通用能力上具有明顯優(yōu)勢(shì)，但由于結(jié)合了視覺(jué)和語(yǔ)言，推理成本相對(duì)較高。未來(lái)，還需構(gòu)建更高效的模型以及提升多場(chǎng)景能力以?xún)?yōu)化推理過(guò)程。此外，基于目前OCR和分割方面呈現(xiàn)出的強(qiáng)大潛力，未來(lái)還需繼續(xù)專(zhuān)注于通過(guò)指令實(shí)現(xiàn)更精確的理解和生成。我們已經(jīng)推出多模態(tài)照片說(shuō)話(huà)平臺(tái)，目前已對(duì)外開(kāi)放，每個(gè)用戶(hù)都可以生成更加精準(zhǔn)的個(gè)性化視頻內(nèi)容。

最后，由于數(shù)據(jù)涉及敏感信息和語(yǔ)義信息，視覺(jué)大模型格外強(qiáng)調(diào)視覺(jué)數(shù)據(jù)的安全性和可控性。語(yǔ)義信息和內(nèi)涵必須與價(jià)值觀和形態(tài)意識(shí)相一致，因此需更加關(guān)注數(shù)據(jù)的清洗和生成過(guò)程，以確保數(shù)據(jù)的安全性和可控性。

（本文根據(jù)作者論壇報(bào)告速記整理而成，經(jīng)作者授權(quán)發(fā)布）

作者簡(jiǎn)介：

王金橋，中國(guó)科學(xué)院自動(dòng)化研究所紫東太初大模型研究中心常務(wù)副主任，研究員，博導(dǎo)，武漢人工智能研究院院長(zhǎng)，中國(guó)科學(xué)院大學(xué)人工智能學(xué)院崗位教授，多模態(tài)人工智能產(chǎn)業(yè)聯(lián)盟秘書(shū)長(zhǎng)，主要從事多模態(tài)大模型、視頻分析與檢索、大規(guī)模目標(biāo)識(shí)別等方面的研究。共發(fā)表包括IEEE國(guó)際權(quán)威期刊和頂級(jí)會(huì)議論文300余篇，國(guó)際期刊50余篇，國(guó)際會(huì)議220余篇。完成國(guó)家標(biāo)準(zhǔn)提案3項(xiàng)，發(fā)明專(zhuān)利36項(xiàng)，10項(xiàng)國(guó)際視覺(jué)算法競(jìng)賽冠軍，新時(shí)代中國(guó)經(jīng)濟(jì)創(chuàng)新人物，北京市科技進(jìn)步一等獎(jiǎng)，世界人工智能大會(huì)SAIL獎(jiǎng)，吳文俊人工智能科技進(jìn)步二等獎(jiǎng)，中國(guó)發(fā)明創(chuàng)新銀獎(jiǎng)。