版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

蘇金樹教授:多模態(tài)感知認(rèn)知智能理論

Engineering前沿
工程院Engineering系列期刊內(nèi)容精選
收藏

多模態(tài)感知認(rèn)知智能理論是指整合多種感知渠道(如視覺、聽覺、觸覺、文本等)信息,實(shí)現(xiàn)對(duì)環(huán)境或?qū)ο蟮娜胬斫馀c解析,模擬人類多維感知與認(rèn)知機(jī)制的智能計(jì)算范式,實(shí)現(xiàn)機(jī)器對(duì)視覺、聽覺、觸覺等多模態(tài)數(shù)據(jù)的協(xié)同理解與推理。

多模態(tài)感知智能主要依托深度學(xué)習(xí)、數(shù)據(jù)融合和模式識(shí)別技術(shù),處理和分析不同模態(tài)的數(shù)據(jù),研究多模態(tài)數(shù)據(jù)表示、跨模態(tài)信息融合、模態(tài)間關(guān)聯(lián)挖掘、多模態(tài)任務(wù)聯(lián)合優(yōu)化等,以提升感知系統(tǒng)的準(zhǔn)確性和魯棒性。多模態(tài)認(rèn)知智能主要以多模態(tài)數(shù)據(jù)的協(xié)同處理與融合為核心,研究跨模態(tài)表示學(xué)習(xí)、跨模態(tài)生成和多模態(tài)協(xié)同等核心問題。例如,在自動(dòng)駕駛領(lǐng)域,通過結(jié)合攝像頭、雷達(dá)和激光雷達(dá)的數(shù)據(jù),可以更精準(zhǔn)地識(shí)別和預(yù)測(cè)周圍環(huán)境中的動(dòng)態(tài)物體等。

多模態(tài)感知智能的研究趨勢(shì)包括:發(fā)展更強(qiáng)大的大規(guī)模多模態(tài)預(yù)訓(xùn)練模型,以實(shí)現(xiàn)更廣泛的應(yīng)用場(chǎng)景覆蓋;提升實(shí)時(shí)數(shù)據(jù)處理能力,滿足復(fù)雜環(huán)境下的即時(shí)響應(yīng)需求;注重?cái)?shù)據(jù)的同步與異構(gòu)融合,提升系統(tǒng)的整體感知能力和適應(yīng)性。多模態(tài)認(rèn)知智能將逐步朝著深度神經(jīng)網(wǎng)絡(luò)與認(rèn)知科學(xué)深度融合的方向演進(jìn),致力于突破模態(tài)間的語義鴻溝,實(shí)現(xiàn)更接近人類認(rèn)知水平的智能系統(tǒng),為自然語言理解、視覺問答、跨模態(tài)檢索等任務(wù)提供重要的理論基礎(chǔ)與技術(shù)支撐。

該前沿主題2018—2023年間發(fā)表的核心論文(注:針對(duì)該主題在Web of Science檢索得到的被引頻次位于前10%的高影響力論文——截至2023年12月)數(shù)量及其逐年發(fā)表情況見表3.1和表3.2。

內(nèi)容取自《全球工程前沿2024》

評(píng)論
科普647da048606b8
庶吉士級(jí)
已經(jīng)閱讀
2025-03-07