歷史的車(chē)輪滾滾向前,不知不覺(jué)中我們已經(jīng)站在AI 3.0時(shí)代的拐點(diǎn)。隨著“感知智能”逐漸向具有理解和表達(dá)能力的“認(rèn)知智能”轉(zhuǎn)變,情感計(jì)算必將是這場(chǎng)時(shí)代躍遷中關(guān)鍵的一環(huán)。在百家爭(zhēng)鳴的情感計(jì)算研究界,有哪些技術(shù)難點(diǎn)?目前產(chǎn)品應(yīng)用現(xiàn)狀如何?未來(lái)賦能產(chǎn)業(yè)界的道路和機(jī)遇又在何方?
帶著這些疑問(wèn),AI Time第18期邀請(qǐng)了中科院自動(dòng)化所研究員陶建華、清華計(jì)算機(jī)系長(zhǎng)聘副教授賈珈、中國(guó)人民大學(xué)信息學(xué)院副教授金琴、以及微軟(亞洲)互聯(lián)網(wǎng)工程院微軟小冰團(tuán)隊(duì)首席科學(xué)家宋睿華,一起談?wù)勄楦杏?jì)算的過(guò)去、現(xiàn)在以及爆發(fā)式的未來(lái)。
認(rèn)識(shí)情感及情感計(jì)算
無(wú)“情感”不智能?
首先,情感是什么?很多年前達(dá)爾文在《進(jìn)化論》中就提出,情感是人類(lèi)生存和進(jìn)化過(guò)程中重要的組成部分,其表達(dá)和識(shí)別模式也不斷朝高層次、多樣化的方向發(fā)展。情感大體由三種成分構(gòu)成:主觀體驗(yàn),外部表現(xiàn)/表情,以及生理喚醒。
情感能力是人類(lèi)智能的重要標(biāo)志,甚至在理性行為和決策中起到至關(guān)重要的作用。情感體驗(yàn)所構(gòu)成的恒常心理背景或一時(shí)的心理狀態(tài),都能組織與協(xié)調(diào)當(dāng)前的信息加工。情感狀態(tài)的任何細(xì)微改變,都可能對(duì)主觀創(chuàng)造性、問(wèn)題解決產(chǎn)生重要影響。
情感計(jì)算發(fā)展歷史
早在上世紀(jì)80年代,情感在機(jī)器智能中已經(jīng)得到關(guān)注?!叭斯ぶ悄苤浮盡insky在1986年所作的The Society of Mind一書(shū)中表示,情感是機(jī)器智能的重要組成部分。1995年MIT多媒體實(shí)驗(yàn)室學(xué)者Rosalind Picard首次提出“情感計(jì)算”這一概念,并于1997 年出版《情感計(jì)算》(Affective Computing)一書(shū)。
從此,情感計(jì)算這一新興科學(xué)領(lǐng)域,進(jìn)入眾多信息科學(xué)和心理學(xué)研究者的視野。如今,隨著大量統(tǒng)計(jì)技術(shù)模型的涌現(xiàn)和數(shù)據(jù)資源的累積,相關(guān)國(guó)際會(huì)議、期刊和比賽也不斷引人注目,在應(yīng)用領(lǐng)域的落地也日臻成熟。
技術(shù)思辨
交鋒:范疇觀 VS 維度觀
有關(guān)情感體驗(yàn)的理論觀點(diǎn)有兩大“派系”:范疇觀(離散情緒)和維度觀 (連續(xù)情緒)。范疇觀將情緒或情感分成相互獨(dú)立的范疇,例如Paul Ekman提出的六大類(lèi)情感分類(lèi)體系。維度觀則認(rèn)為情感具有基本維度和兩極性,主張將其投射到x, y, z軸構(gòu)成的物理空間,例如PAD或VAD三維情感模型。
google圖片,僅供學(xué)習(xí)參考使用
那么針對(duì)這兩大“流派”,嘉賓們各自持怎樣的立場(chǎng)?
賈珈認(rèn)為,范疇觀的好處是與人類(lèi)詞匯概念進(jìn)行語(yǔ)言、語(yǔ)義上的接軌。維度觀的優(yōu)點(diǎn)是能夠更動(dòng)態(tài)、細(xì)致地描述人類(lèi)情感,有效地表達(dá)愉悅度、激活度等情緒體驗(yàn)指標(biāo)。另外,從情感計(jì)算任務(wù)上講,范疇觀是一個(gè)分類(lèi)正誤的問(wèn)題,而維度觀則是個(gè)連續(xù)空間的回歸問(wèn)題。尤其是在當(dāng)今AI 3.0大數(shù)據(jù)時(shí)代,這種回歸問(wèn)題可以做到非常精準(zhǔn)。
金琴表示,用情緒范疇來(lái)描述情感,更符合人們的直覺(jué)和常識(shí)。但是,維度觀能夠更精細(xì)、復(fù)雜地表示交互場(chǎng)景下情緒瞬時(shí)的演化、消融等狀態(tài)變化。同時(shí),維度觀也涵蓋了范疇觀,兩者其實(shí)聯(lián)系緊密。陶建華補(bǔ)充,兩者沒(méi)有本質(zhì)上的孰優(yōu)孰劣,維度觀可以產(chǎn)生精確到毫秒的瞬時(shí)情感輸出,而范疇觀則適合在一個(gè)時(shí)段里輸出情感類(lèi)別。
宋睿華則用令人耳目一新的比喻勾勒了兩者的區(qū)別。維度觀如同星空中動(dòng)態(tài)的坐標(biāo),而范疇觀則是給閃閃發(fā)光的星星命名為“傷心”或是“開(kāi)心”。盡管坐標(biāo)能夠準(zhǔn)確地刻畫(huà)情緒的游走,但范疇更易于直觀上的分辨,有利于現(xiàn)實(shí)生活中的推廣和應(yīng)用。
由此看來(lái),范疇觀和維度觀實(shí)則是定性與定量之爭(zhēng)。兩者看似對(duì)立,其實(shí)可以相互轉(zhuǎn)化。當(dāng)然,具體方法和模型的選擇,取決于實(shí)際任務(wù)和場(chǎng)景需求。
圖:離散/范疇和連續(xù)/維度的多模態(tài)情感識(shí)別演示,左邊是六大基礎(chǔ)情感類(lèi)別,右邊是連續(xù)的情感狀態(tài)變化(金琴)
矛盾?外顯 VS 內(nèi)隱數(shù)據(jù)
盡管情緒通常通過(guò)外顯表情來(lái)傳達(dá)和塑造,卻往往不能真實(shí)地反應(yīng)內(nèi)在心理環(huán)境,這時(shí)需要內(nèi)隱的生理數(shù)據(jù)來(lái)測(cè)試和識(shí)別。有趣的是,很多時(shí)候人類(lèi)自身都無(wú)法察覺(jué)對(duì)方隱秘的情感波動(dòng)。那么外顯和內(nèi)隱之前的沖突如何處理?人尚難判斷,機(jī)器能夠輔助嗎?
其實(shí),這兩種數(shù)據(jù)未必沖突,而是具有統(tǒng)一的特性。相比之下,外顯數(shù)據(jù)更易獲取和收集,內(nèi)隱數(shù)據(jù)卻更為精準(zhǔn),代表著難以偽裝的“ground truth”。事實(shí)上,人類(lèi)本身的情感識(shí)別行為也是矛盾沖突的: 人們更傾向于聽(tīng)覺(jué)還是視覺(jué)通道獲取的信息?面對(duì)喜怒不形于色的人,也就是撲克臉(Poker Face),我們又能解讀出多少真實(shí)情感?這意味著情感調(diào)研中,人為標(biāo)注的表情數(shù)據(jù)并不可靠。宋睿華在研究中也會(huì)模擬這種心口不一的情況,例如即使在負(fù)面情緒下,小冰也會(huì)受算法約束而禮貌地掩蓋其情緒。
因此,把心理范式和識(shí)別技術(shù)整合在一起,才能更為全面地揭示情感的因素和特征。
應(yīng)用思辨
毋庸置疑,情感計(jì)算的研究成果蘊(yùn)藏著豐富的市場(chǎng)價(jià)值。那么它在產(chǎn)業(yè)界的應(yīng)用現(xiàn)狀如何呢?
賈珈展示了計(jì)算機(jī)畫(huà)作生成、以及音樂(lè)驅(qū)動(dòng)的avatar舞蹈生成這兩大應(yīng)用拓展。從哲學(xué)意義上講,情感是美學(xué)更外延的范疇,利用計(jì)算機(jī)進(jìn)行美學(xué)認(rèn)知建模是個(gè)有意思的方向。
宋睿華的微軟小冰,也具體闡釋了范疇觀和維度觀的產(chǎn)業(yè)融合。小冰的內(nèi)在情感指數(shù)根據(jù)上下文情境不斷發(fā)生多維空間的位移,但外觀上只通過(guò)幾種具體的燈光顏色、或是2D動(dòng)畫(huà)中有限等級(jí)的神情狀態(tài)來(lái)表達(dá)。
注:一個(gè)有趣的實(shí)驗(yàn)發(fā)現(xiàn)是,動(dòng)畫(huà)中小冰的聲音始終保持中性,但僅僅通過(guò)面部和肢體表情仍然可以清晰地向人類(lèi)傳達(dá)情感信號(hào)(宋睿華)
情感的群體性和個(gè)體性
由于對(duì)情感的感知和理解存在具體的個(gè)體差異,在應(yīng)用過(guò)程中情感個(gè)性化是非常重要的考量。然而個(gè)性化和泛化能力是相互矛盾的,這是一個(gè)技術(shù)難點(diǎn)。陶建華表示,目前已經(jīng)有自適應(yīng)學(xué)習(xí)、遷移學(xué)習(xí)等技術(shù)開(kāi)始支撐相關(guān)的應(yīng)用,使得訓(xùn)練好的模型能夠更好地適用于新的個(gè)體或場(chǎng)景。
賈珈認(rèn)為,過(guò)去情感研究的默認(rèn)前提和假設(shè)是情感的群體共性,即大家在表達(dá)同樣的外顯數(shù)據(jù)時(shí),內(nèi)心情感狀態(tài)是一致的。那么關(guān)注個(gè)體獨(dú)特性時(shí),會(huì)面臨數(shù)據(jù)和方法的問(wèn)題。如何把控所需的個(gè)人數(shù)據(jù)量?在實(shí)際應(yīng)用場(chǎng)景中,是否能真正獲取到每個(gè)人所謂的獨(dú)特?cái)?shù)據(jù)呢?比如,當(dāng)今互聯(lián)網(wǎng)APP更強(qiáng)調(diào)便捷性,用戶(hù)未必愿意注冊(cè)個(gè)性化信息。
該問(wèn)題可以分階段逐步解決,不必把群體和個(gè)體看做非零即一的問(wèn)題,而是把兩者之間的過(guò)渡過(guò)程描述得粒度更細(xì)。比如,從性別、年齡層次、文化背景、職業(yè)特點(diǎn)等人口學(xué)屬性(demographic),以及網(wǎng)絡(luò)空間中的角色屬性入手,讓群體劃分更接近于個(gè)性化,同時(shí)兼顧應(yīng)用場(chǎng)景、數(shù)據(jù)和方法的便利性以及隱私保護(hù)問(wèn)題。中國(guó)人講求中庸之道,取一個(gè)合適的中間狀態(tài),這可能是現(xiàn)有條件限制下,追求個(gè)性化和共性平衡的一種方法。
宋睿華在個(gè)性模擬的工作中,也遇到了尚未解決的難點(diǎn)。雖然通過(guò)控制情緒波動(dòng)的幅度,能夠模擬性格活潑夸張和淡定內(nèi)斂的人不同的情感起伏,但目前即使是利用共通的情感模擬出一個(gè)普通的人,也十分困難。機(jī)器在每輪情緒切換中比較跳躍,很難像人那樣保持自然、連貫的變化。金琴補(bǔ)充,在情感識(shí)別研究中,英文和中文的數(shù)據(jù)集訓(xùn)練的情感模型亦存在差異、難以兼容。
個(gè)性化服務(wù) VS 數(shù)據(jù)隱私
陶建華指出,個(gè)人情感分析問(wèn)題在交互領(lǐng)域不斷衍生著新的應(yīng)用方式。比如在智能客服領(lǐng)域如何有效檢測(cè)用戶(hù)情感?如何進(jìn)行客服人員的質(zhì)檢、監(jiān)測(cè)其情感狀態(tài)和通道的異常?另外,日趨成熟的測(cè)謊技術(shù),也能夠在話術(shù)引導(dǎo)下通過(guò)生理參數(shù)、甚至僅僅是音訊和視頻信號(hào)等反應(yīng)心理細(xì)微波動(dòng)的參數(shù)來(lái)進(jìn)行情感分析。
個(gè)性化服務(wù)和隱私保障之間存在一個(gè)tradeoff,取決于應(yīng)用場(chǎng)景的需求。金琴舉例,在疫情追蹤中為了實(shí)現(xiàn)更高質(zhì)量的目標(biāo)和效果,隱私保護(hù)就會(huì)一定程度上蒙受損失。
賈珈則持樂(lè)觀態(tài)度,“隱私是相對(duì)而非絕對(duì)的概念”,每個(gè)人對(duì)隱私的認(rèn)知都有所不同,不如交給用戶(hù)自己決定是否接受。例如讓用戶(hù)自主選擇是否嘗試某個(gè)功能,從而尊重和保護(hù)用戶(hù)的個(gè)人意愿。
賦能產(chǎn)業(yè)界的未來(lái)方向
陶建華認(rèn)為,情感計(jì)算的研究成果已經(jīng)開(kāi)始運(yùn)用到人機(jī)交互、心理疾病診斷與治療、駕駛者疲勞度檢測(cè)、測(cè)謊等多個(gè)領(lǐng)域。目前甚至一些初創(chuàng)公司主打的類(lèi)型就是跟情感計(jì)算有關(guān)的產(chǎn)品應(yīng)用,包括Pichard結(jié)合穿戴式設(shè)備所做的情感計(jì)算的應(yīng)用工作。那么如何與更多的應(yīng)用場(chǎng)景進(jìn)行銜接呢?
其實(shí)研究者們很早就在做相關(guān)技術(shù)儲(chǔ)備,但還需要商業(yè)界和工業(yè)屆挖掘相關(guān)的真實(shí)需求。例如人臉識(shí)別技術(shù)就被利用在門(mén)禁安防系統(tǒng)、人流監(jiān)控等非常好的應(yīng)用場(chǎng)景。那么多模態(tài)情感識(shí)別的研究到底以怎樣的應(yīng)用場(chǎng)景在產(chǎn)業(yè)界爆發(fā),宋睿華覺(jué)得仍然很難預(yù)測(cè)。
金琴?gòu)?qiáng)調(diào),隨著機(jī)器智能和知識(shí)達(dá)到一定水平,馬洛斯五大需求層次上的精神需求會(huì)更加強(qiáng)烈。現(xiàn)階段情感計(jì)算仍非核心生產(chǎn)力,需要技術(shù)發(fā)展積累到一定程度才會(huì)出現(xiàn)所謂的“killer application”來(lái)造福大眾。
賈珈的角度很巧妙,情感計(jì)算其實(shí)可以運(yùn)用在產(chǎn)業(yè)界很多發(fā)展成熟的領(lǐng)域。比如基于主題的推薦系統(tǒng),根據(jù)用戶(hù)點(diǎn)擊率來(lái)作為內(nèi)容衡量標(biāo)準(zhǔn),其實(shí)存在著天花板。如果能夠大概分析出當(dāng)時(shí)的情緒脈搏,在捕捉到負(fù)面情緒時(shí)反其道行之,推薦一些正能量的內(nèi)容,其實(shí)可以提高推薦質(zhì)量。內(nèi)容推薦本質(zhì)上是一個(gè)了解用戶(hù)的過(guò)程,心理情緒是其中重要的因素。
另一方面,情感計(jì)算在壓力檢測(cè)、抑郁檢測(cè)等消除負(fù)面情緒方面的應(yīng)用,其實(shí)能夠幫助企業(yè)更好地肩負(fù)人文關(guān)懷的責(zé)任。
展望:情感計(jì)算的下一個(gè)里程碑
賈珈認(rèn)為,在數(shù)據(jù)驅(qū)動(dòng)和知識(shí)驅(qū)動(dòng)的AI3.0時(shí)代,從知識(shí)角度來(lái)講,心理學(xué)幾百年積攢的人類(lèi)智慧和經(jīng)典理論不能拋掉;從數(shù)據(jù)角度來(lái)看,互聯(lián)網(wǎng)是人類(lèi)社會(huì)中物理和心理狀態(tài)的虛擬投影,網(wǎng)絡(luò)空間能帶給我們更為宏觀的情感產(chǎn)生、影響和傳播機(jī)制,從而反哺心理學(xué),揭示更為宏大的人類(lèi)情感的規(guī)律。將純白盒的理論研究和純黑盒的統(tǒng)計(jì)模型結(jié)合,能夠屏蔽數(shù)據(jù)偏向性和知識(shí)局限性,從而打開(kāi)情感計(jì)算的新局面。
宋睿華主張,下一個(gè)里程碑是情感模擬的自主性。當(dāng)前的情感計(jì)算仍然偏向應(yīng)對(duì)性,機(jī)器根據(jù)情境來(lái)理解和應(yīng)答。未來(lái)希望AI能夠如同聲情并茂的演員一樣,傳達(dá)自身富有感染力的主觀情感。金琴亦滿懷期待地憧憬,未來(lái)文本、語(yǔ)音、視覺(jué)結(jié)合的多模態(tài)情感識(shí)別能夠更加高效、精準(zhǔn)和通用。
陶建華回顧自己從語(yǔ)音通道到多模態(tài)情感計(jì)算的研究歷程,認(rèn)為情感與語(yǔ)義理解的深度融合,會(huì)是下一個(gè)重要的里程碑。咨詢(xún)機(jī)構(gòu)Gartner也對(duì)情感智能進(jìn)行了相應(yīng)預(yù)測(cè),情感智能的應(yīng)用會(huì)在未來(lái)產(chǎn)生爆發(fā)式增長(zhǎng),必然會(huì)和生活領(lǐng)域中的更多應(yīng)用實(shí)現(xiàn)更深層次的結(jié)合!