一、簡要介紹
儘管基於文本的情感識別方法已經取得了顯著的成就,但現實世界中的對話系統往往需要比單一模態所能提供的更加細膩的情感理解。因此,多模態情感識別(MERC)成為了提升人機交互自然性和情感理解的關鍵方向。其目標是通過整合文本、語音和視覺信號等不同模態的信息,準確地識別情感。本綜述系統地概述了MERC,包括其動機、核心任務、代表性方法和評估策略。論文進一步探討了最近的趨勢,指出了關鍵挑戰,並概述了未來的發展方向。隨着對情感智能系統興趣的增長,本綜述為MERC研究的進展提供了及時的指導。
二、研究背景
對話中的情感識別(ERC)是自然語言處理領域中一個日益重要的任務,主要關注識別對話中每個話語背後的情感狀態。與傳統上對孤立 句子進行情感分類不同,ERC需要理解話語之間的互動,並跟蹤對話中特定説話者的上下文。由於其在社交媒體監控、智能醫療保健服務以及設計情感感知的對話代理等實際應用中的潛力,ERC的重要性日益凸顯。
然而,人類的情感通常是通過多種感官渠道來傳達的,包括聽力、視覺和語言。因此,近期的研究越來越多地關注對話中的多模態設置,這一領域被稱為對話中的多模態情感識別(MERC)。研究者們通過整合不同模態的上下文信息,旨在識別特定話語背後的情感狀態,這些信息通常包括微妙的個人情感,如快樂、憤怒和仇恨,從而提高對話中情感識別的準確性。 圖1展示了一個包含文本、聲學和視覺輸入的ERC示例。
多模態情感識別(MER)因其在整合不同模態方面的挑戰而日益受到關注,這促使了在非對話和對話場景下的研究。現有的綜述聚焦於非對話型的多模態理解(MER),卻忽略了對話者建模和上下文等關鍵要素。Fu等人(2023)對單模態及多模態對話式MER進行了綜述,但主要關注特徵融合,對跨模態對齊、推理、模態缺失及衝突等核心挑戰的探討較為有限。
儘管興趣日益增長,MERC任務仍被忽視。現有的綜述也未能跟上最近的進展,尤其是多模態大型語言模型(MLLMs)的興起。為了彌補這一差距,論文提供了一篇及時且全面的MERC任務綜述。首先,論文介紹了任務定義和調查方法,基準數據集和評估方法,接着回顧了預處理技術;然後對最近的方法進行了分類,並概述了關鍵挑戰和未來展望。
總之,本次調查的具體貢獻有三個方面:
MERC近期研究成果彙編。論文系統回顧並整合了MERC近年來在各類數據集和方法論方面取得的最新研究進展。
總結並比較了多種MERC方法,評估了各MERC方法的優勢與侷限性,提供了理論洞見和實踐指導,幫助研究人員和實踐者選擇合適的方法。
提出挑戰和未來方向。論文確定了MERC領域中的關鍵開放問題,並提出了幾個潛在的未來研究方向,旨在指導研究人員和從業者在 MERC領域的正在進行和未來的研究。
三、任務設置和評估方法
在本節中,論文介紹了MERC的任務設置,並概述了編譯本綜述內容所採用的方法,詳細説明了為本調查策劃最終內容所採用的策略和選擇標準。
文獻彙編方法。論文通過ACL文集、Google學術及通用搜索引擎等資源,開展全面的文獻檢索工作。在ACL文集中,論文重點關注頂級會議,如EMNLP、ACL、NAACL及其相關研討會。
選擇標準。論文挑選與MERC直接相關的論文,特別關注那些至少使用了兩種模態(如文本、音頻、視覺)的作品,這些作品包含了對話背景,並在IEMOCAP、MELD和CMU-MOSEI等基 準數據集上進行了評估。論文優先考慮2020年及以後的最新論文,以反映當前的研究水平,同時在適當的情況下也包括基礎性研究,以提供歷史背景。選擇是基於對每篇論文的摘要、引言、結論和侷限性的仔細審查。
四、數據集和評估
在本節中,論文介紹了MERC任務所使用的評估數據集和評估指標,重點關注多語言的多模態資源。關於單一基準的詳細信息,請參見附錄A。
數據集。論文將現有的主流數據集分為以下兩類:
(1) 以英語為中心的數據集,包括IEMOCAP、MELD、CMUMOSEI、AVEC、EmoryNLP和MEmoR;
(2) 非英語數據集,涵蓋M-MELD(法語、西班牙語、希臘語、波蘭語)、ACE(非洲語言)以及M3ED(普通話)。
如表1所示,多模態數據集所涵蓋的領域隨着時間的推移變得越來越多樣化。這些數據集的來源包括電視劇、視頻和電影。同時,語言多樣性也擴展到了法語、西班牙語、希臘語、波蘭語和普通話等語言。值得注意的是,針對低資源語言的數據集,如非洲語言,也越來越多地出現。
評估指標方面,現有研究通常採用多種評估指標來全面評估模型的整體性能,包括準確率、weighted-F1分數、macro-F1分數和micro-F1分數。為了實現更細緻的分析,這些研究還報告了每種情感的指標分數。
五、特徵處理
預處理數據集特徵對於有效提取有意義的信息至關重要。論文總結了先前MERC研究中採用的特徵預處理方法,並分析了典型的預處理流程,該流程通常針對對話場景進行定製。具體來説,論文區分了兩個關鍵組件:特徵提取和上下文建模。
特徵提取。為了實現有效的多模態分析,必須首先從每個模態流(文本、音頻、視覺)中提取特徵。主流方法通常在這一初始階段分別處理這些模態。儘管核心提取技術往往有重疊,但在多模態設置中,關鍵區別在於這些特徵的使用目的和後續應用。在單模態情感識別中,提取器的目標是在單一模態內捕捉足夠信息以進行情感分類。表2概述了本文調查的多模態研究中常用的特徵提取模型。
上下文建模主要涉及兩種類型的上下文依賴:情境級建模和説話者級建模。
情境級。説話者的情緒狀態不僅受當前話語語義內容的影響,還受到周圍語境語義的影響。因此,現有的方法通常採用專門的網絡來建模話語間的順序依賴關係,旨在更準確地捕捉説話者的時間情感動態。
説話者級。説話者身份信息通常表現出情緒的時間和關係屬性,這可以增強模型感知説話者角色信息的能力。因此,為了更有效地學習和區分説話者級別的上下文表示,許多研究在對話上下文建模的基礎上引入了與説話者相關的結構化信息。常用的方法包括使用説話者嵌入來明確區分不同的説話者,或利用圖神經網絡構建説話者之間的交互圖,從而更全面地建模他們之間的依賴關係:
六、方法
本節探討了MERC任務的最新方法。論文從三個角度進行了總結:基於圖的方法、基於融合的方法以及基於生成的方法。圖2展示了這些方法及其子類別的概述,並附有代表性示例。
6.1 基於圖的方法
對話可以自然地被解釋為圖結構,因為話語之間存在內在的相關性和依賴性。對話通常涉及多輪互動,具有複雜的依賴和交互模式,這些可以通過圖神經網絡(GNNs)的邊結構進行有效建模(Scarselli等,2009)。隨着對多模態對話理解的興趣日益增加,GNNs的應用已從文本數據擴展到多模態輸入(Liu等,2024a)。此外,最近的方法還集成了輔助模塊(如卷積、對比學習和融合),以提升性能。圖3展示了基於圖的方法的最新進展。論文將它們分為傳統圖、超圖和傅里葉圖神經網絡。
傳統的圖神經網絡。早期的研究,如bc- LSTM和ICON,主要採用順序方法。DialogueGCN首次將圖神經網絡引入對話關係分類任務,解決了早期基於序列的模型在捕捉上下文依賴性方面的侷限。為了有效整合不同模態的信息,Hu等人( 2021b)構建了一個融合多模態特徵的圖結構,使模型能夠通過圖卷積網絡捕捉跨模態的依賴關係,並結合説話者信息以增強對話語義的表示。受圖卷積在ERC中應用的啓發,GSF模塊引入了交替圖卷積機制,分層提取跨模態和模態內的情感信息。一些研究進一步通過注意力機制增強了基於圖的模型,以實現多模態融合;例如,Feng和Fan(2025)集成了一個跨模態注意力模塊,以更好地融合不同模態中的有用信息,而Nguyen等人(2023)設計了一個跨模態注意力機制,以明確建模模態間的異質性。
超圖神經網絡。儘管傳統的基於圖的方法能夠捕捉長距離和多模態的上下文信息,但在對話中,這些方法常因模態缺失而面臨挑戰。Lian等人(2023)通過端到端地聯合優化分類和重建任務,有效解決了這一問題,建模了不完整數據。相關研究探討了圖神經網絡節點間成對關係的限制。Van等人(2025)構建了一個多模態融合圖,並引入了超圖神經網絡,同時連接多個模態或話語節點,從而捕捉對話中更復雜的多變量依賴和高階交互,增強了情感傳播的建模。
傅里葉圖神經網絡。增加圖神經網絡(GNN)層的深度可能會導致過度平滑的問題,這阻礙了對長距離語義依賴和互補模態關係的建模。為了解決這一問題,GS-MMC提出了一種基於圖的框架,用於多模態的一致性和互補性學習。該方法利用傅里葉圖算子從頻域中提取高頻和低頻情感信號,捕捉局部變化和全局語義趨勢。此外,還設計了一種對比學習機制,以自監督的方式增強這些信號的語義一致性和互補性,從而提高模型識別真實情感狀態的能力。
6.2 基於融合的方法
在MERC中,異構多模態特徵的有效融合至關重要,但這一過程因交互建模時引入的噪聲而變得極具挑戰性。Transformer架構通過其自注意力機制,促進了MERC方法在捕捉跨模態和上下文依賴方面的進步。為了增強跨模態的互動,最近的方法在Transformer的基礎上採用了定製的融合策略。論文將這些方法稱為基於融合的方法,並在圖4中進行了説明。一些方法通過促進模態間的平等互動來提高魯棒性,而其他方法則採用主輔模式,通常以文本為核心,其他模態提供補充信號。
等模態權重。等交互可以充分利用來自不同模態的信息,避免過度依賴單一模態。Li等人(2022)提出通過整合不同模態的情感向量和句子向量,形成情感膠囊,實現情感識別。Zhang和Li(2023)設計了一個局部約束模塊,用於Transformer內部的模態交互,促進模態間的互動,並引入了語義圖來解決話語間缺乏語義關係信息的問題。Mao等人(2021)構建了一個分層Transformer,每個模態可以根據上下文信息靈活地在順序和前饋結構之間切換。受分層模態交互的啓發,Ma等人(2024a)將分層門控融合策略引入Transformer架構,實現細粒度的模態交互,並設計了自蒸餾以進一步學習更好的模態表示。
文本主導模態。一些方法提出了基於主-輔助模態協作的模型,其中輔助模態用於提升主(文本)模態的表現。Huang等人(2024b)提出,通過輔助模態增強文本主導模型可以提高其性能。Zou等人(2022)採用Transformer架構設計了跨模態注意力機制,用於學習不同模態之間的融合關係,既保持了主模態特徵的完整性,又增強了較弱模態特徵的表現。它還採用了一個兩階段的情感線索提取器來提取情感證據。在此基礎上,Zou等人(2023)提出,在對較強模態進行深度情感線索提取時,可以使用較弱的模態作為多模態提示。將線索信息嵌入Transformer的各個注意力層,以促進主模態與輔助模態之間的信息融合。Zhu等人(2024)引入了一個不對稱的CMA-Transformer模塊,用於中心和輔助模態,以獲取融合的模態信息,並提出了一種分層蒸餾框架,以實現粗粒度和細粒度的蒸餾。這種方法確保了不同粒度模態融合信息的一致性。
6.3 基於生成的方法
近年來,預訓練的大語言模型(LLMs)在自然語言處理任務中取得了顯著成就(Chu等,2024),展現了強大的涌現能力(Wei等,2022)。然而,儘管這些模型具備強大的通用能力,要在特定子任務中充分發揮其潛力,仍需精心設計高質量的提示(Wei等,2021),以彌補推理能力上的不足。如圖5所示,研究人員提出了多種模型改進策略,旨在有效整合上下文和多模態信息,同時解決這些模型對計算資源的巨大需求。
指令調優與説話人及上下文建模。ERC任務主要依賴於判別性建模框架。隨着大語言模型(LLM)的興起,InstructERC首次提出了ERC的生成框架。該框架引入了一個簡單而有效的基於檢索的提示模塊,幫助LLM顯式地整合對話中的多粒度監督信號。此外,它還結合了一個輔助的情感對齊任務,以更好地模擬對話中説話者之間複雜的情感變化。受COSMIC中常識知識整合的啓發,近期的研究設計了一種基於對話歷史的提示生成方法,通過將常識知識注入ERC,利用LLM提取與説話人相關的常識。
行為感知與多模態指令調優。為了解決多模態整合不足的問題,Dutta和Ganapathy(2025)將聲學和文本模態結合使用。鑑於視覺信息能提供更豐富的情感線索,Zhang等(2024b)利用圖像和文本數據構建了一個高質量的指令數據集,並通過低秩自適應(LoRA)技術對模型進行了微調。此外,Fu等(2025b)提出了一種基於行為感知的多模態語言模型(MLLM)的ERC框架。該框架由三個核心部分組成:視頻生成的行為模塊、行為對齊與精煉模塊以及指令調優模塊(Wei等,2021)。前兩個模塊使模型能夠從有限的信息中推斷人類行為,從而增強其行為感知能力。指令調優模塊通過對多模態輸入進行對齊和微調,提高了模型的情感識別性能。
輕量級多模態融合與適應。隨着大型語言模型(LLMs)的規模不斷擴大,其在情感計算中的計算成本也顯著增加。受為情感計算設計的特定領域LLM範式的啓發,MSE-Adapter提出了一種輕量且靈活的插件架構,該架構包含兩個模塊:TGM,用於文本和非文本特徵的對齊;MSF,用於多尺度跨模態融合。該架構基於凍結的LLM主幹,並通過反向傳播訓練,能夠以最小的計算成本實現高效且多模態感知的情感計算。同樣,SpeechCueLLM引入了一種輕量級插件,可以將語音特徵轉換為自然語言提示,使LLMs能夠在不改變架構的情況下執行多模態情感識別。
七、挑戰與展望
基於當前MERC任務的趨勢和發展,本節概述了幾個現有的挑戰和開放問題,強調了未來改進的機會。論文按照邏輯順序展開討論:首先探討數據收集和FAIR合規性的基礎限制,接着分析多模態建模的挑戰,最後討論實際部署中的考慮因素。這一過程反映了數據和建模中的上游問題如何影響下游,最終影響MERC系統的穩健性、包容性和適用性。
FAIR原則在MERC中提出了挑戰。這些原則旨在提高數字資產的可發現性、可訪問性、互操作性和可重用性。收集大規模且多樣的多模態情感數據既費錢又耗時;一些大型對話數據集仍然侷限於單一語言和特定領域。這些限制與FAIR原則相沖突。一些ERC數據集缺乏豐富的元數據或持久標識符,影響了其可發現性和互操作性。其他數據集則受到訪問限制或版權約束,而許多數據集採用不一致的標籤方案,阻礙了模型的可重用性。因此,研究人員往往只能使用小規模或有偏見的數據集進行訓練,這影響了模型的泛化能力和重用性。
低資源、多語言和多元文化環境。如前文所述,大多數最先進的MERC系統都是基於英語數據集訓練的,這限制了它們在全球範圍內的應用。儘管構建大規模、多樣化的MER語料庫至關重要,但這一目標仍面臨巨大挑戰,因為需要專家對數據進行標註。由於標註數據有限,研究人員不得不依賴遷移學習、零樣本學習或少樣本方法。然而,數據稀缺和情感標註的高成本仍然是低資源領域中MER的主要障礙。情感在不同語言和文化中的表達方式各不相同,這進一步增加了MER(多語言情感識別)的挑戰。由於文化差異,情感表達和解釋的差異可能導致標籤的一致性問題。大多數現有的語料庫都是特定於某種文化的,這限制了它們的普遍適用性。儘管研究人員已經認識到這一挑戰,但旨在實現全球適用性的MER系統必須同時考慮語言的多樣性和文化驅動的表達規則。
跨模態融合策略的複雜性。多模態融合技術包括早期融合、中期融合、晚期融合、混合融合等。一個主要挑戰在於,對話信號如語音、面部表情和轉錄文本本質上是異步的,並且發生在不同的時間尺度上,這使得在話語層面對齊這些信號變得困難。此外,情感表達還受到前後對話輪次背景的影響,因此模型必須能夠捕捉到時間動態的變化。
先前的研究通過使用循環或自注意力層來建模序列上下文,但長距離依賴關係的學習仍然具有挑戰性。如何在決策過程中平衡並整合上下文情感線索特徵與多模態融合特徵,以及如何確定哪些融合策略在不同模態中最為有效,仍然是開放且重要的研究課題。
跨模態對齊、噪聲模態、缺失模態和模態衝突。特徵不一致或錯位會阻礙模型充分利用多模態信號,影響其穩健性和泛化能力。噪聲模態、缺失模態或模態分佈不平衡可能會使簡單的融合策略產生偏差。即使所有模態都可用,它們也可能傳達出相互矛盾的情感信號,進一步增加融合和決策的複雜性。感知不同模態的不確定性以增強特徵,並解決模態特徵之間的衝突,是機器情感理解研究中需要進一步探索的重要領域。因此,探索跨模態遷移與融合以提升ERC的泛化能力,這一領域正吸引着越來越多的研究者。一些ERC方法採用了跨模態注意力機制的變體,基於圖的融合技術,以及通過訓練期間的相互學習來對齊特徵,從而提升跨域性能。
有效模態選擇。多模態學習是指整合來自不同異質來源的信息,旨在充分利用來自多種模態的數據。在多模態表示學習中,並非所有模態對任務的貢獻都是等同的。某些模態可能引入噪聲,需要被移除;而其他模態雖然對當前任務不是必需的,但對其他子任務可能是不可或缺的。現有研究提出了模態選擇算法,用於識別每個模態的貢獻。然而,為特定任務選擇最合適的模態子集仍然是多模態學習中的一個關鍵挑戰。
利用多模態語言模型(LLMs)的高效微調方法。多模態LLMs在使機器跨模態學習方面取得了重大進展。一些模型越來越多地應用於多模態情感識別(MERC),能夠實現不同模態下的零樣本或少量樣本泛化。在MERC中使用LLMs為捕捉更深層次的語義和對話線索開闢了新的可能性,而不僅僅是表面的情感信號。然而,對於情感理解的高效微調這些模型仍然面臨挑戰,尤其是在資源有限和文化多樣化的環境中。如何高效地適應多模態語言模型(MMLMs),以捕捉不同數據集、語言或跨文化背景下情感的細微差別,仍然是一個開放的研究領域。
MERC應用。隨着交互式機器應用的日益普及,MERC成為了一個重要的研究領域。在人機 交互、醫療保健、教育以及虛擬協作等領域的應用中,需要開發出能夠在自然和動態環境中有效運行的、強大且適應性強的情感識別技術。Yang等(2022)研究了在面部遮擋情況下,如手術口罩和織物口罩的影響下,情感識別(MER)技術的應用。Khan等(2024)探討了非接觸式情感識別技術,調查了多種非侵入性模式,如視覺線索和生理信號。Huang(2024)開發了一套用於在線學習的情感識別系統,能夠實時監測並反饋學習者的情緒狀態。這些研究指出了推進MERC系統發展的關鍵方向,特別是提高其魯棒性和情境感知能力。未來的研究應繼續關注實際應用場景。
八、結論
MERC旨在通過整合語言、聲學、視覺信號等多種模態,來理解情感。儘管最近的研究引入了多種建模策略,但在數據稀缺、模態對齊以及跨語言和文化的泛化方面仍面臨重大挑戰。
本調查對MERC領域進行了結構化的回顧,比較了代表性方法,並突出了關鍵的開放研究問題。作者希望它能作為實用參考,支持未來開發穩健且包容的情感識別系統。