版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

科學島團隊提出一種跨模態(tài)機器視覺人工智能模型實現(xiàn)跨模態(tài)圖像檢索技術(shù)

安徽省科學技術(shù)協(xié)會

近日,中國科學院合肥物質(zhì)院智能所先進制造中心王紅強研究員團隊提出一種寬域跨模態(tài)機器視覺AI模型,突破了傳統(tǒng)單域模型跨模態(tài)信息處理瓶頸,實現(xiàn)了跨模態(tài)圖像檢索技術(shù)新突破。該研究成果被計算機視覺頂會(歐洲計算機視覺大會,ECCV2024)正式接收。

跨模態(tài)機器視覺研究是當前人工智能研究的前沿領域與主要挑戰(zhàn)之一,難點在于如何識別模態(tài)間的一致性和互補性。傳統(tǒng)方法通常在圖水平和特征水平上進行,往往受限于信息粒度過大和圖像資源稀缺等問題??蒲袌F隊發(fā)現(xiàn),相比圖和特征,細節(jié)關聯(lián)在多數(shù)情況下更好地保持了跨模態(tài)間的不變性。

為此,科研團隊提出了一種寬域信息挖掘神經(jīng)網(wǎng)絡(WRIM-Net),通過構(gòu)建全域交互學習機制實現(xiàn)了在空間域、通道域以及尺度域等多域中的細節(jié)關聯(lián)挖掘,突破了傳統(tǒng)單域模型的局限性。此外,通過設計跨模態(tài)關鍵實例對比學習模塊有效引導了網(wǎng)絡提取模態(tài)關聯(lián)信息。在驗證實驗中,不僅在標準SYSU-MM01和RegDB數(shù)據(jù)集上,還在最新的大規(guī)模跨模態(tài)LLCM數(shù)據(jù)集上證實了所提出模型的有效性,多項關鍵性能指標首次突破90%,比如在SYSU-MM01上R1指標達92.1%,在RegDB上mAP指標達90.5%,接近實際應用水平。該模型可用于視覺追溯與檢索、多模態(tài)大模型、醫(yī)學影像分析、安防監(jiān)控等多個人工智能應用領域。

博士生吳勇敢為文章的第一作者,王紅強為通信作者。該研究工作得到了國家自然科學基金項目、中國科學院設備開發(fā)、安徽省重點研究與開發(fā)計劃等科研項目的支持。

據(jù)悉,歐洲計算機視覺大會(ECCV)是計算機視覺領域的頂尖國際學術(shù)盛會之一,與ICCV和CVPR并列“三大頂會”。自1986年起,ECCV每兩年舉行一次,聚焦計算機視覺的全方位研究,包括圖像與視頻的處理、分析和理解,及其在機器學習、模式識別、機器人、醫(yī)學影像、AR/VR等領域的應用。

跨模態(tài)信息關聯(lián)性與寬域信息挖掘模型原理

評論
科普6502a8c28decc
進士級
近日,中國科學院合肥物質(zhì)院智能所選進制造中心王紅強研究員團隊提出一種寬域跨模態(tài)機器視覺Al模型,突破了傳統(tǒng)單域模型跨模態(tài)信息處理瓶頸,實現(xiàn)了跨模態(tài)圖像檢索技術(shù)新突破。該研究成果被計算機視覺頂會(歐洲計算機視覺大會ECCV2024)正式接收。
2024-09-16
Wings12
少傅級
閱讀
2024-09-16
科普648af29955a17
庶吉士級
閱讀學習
2024-09-16