news 2026/6/23 21:47:44

【2025 ACL】Listen, Watch, and Learn to Feel: Retrieval-Augmented Emotion Reasoning for Compound Emo

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【2025 ACL】Listen, Watch, and Learn to Feel: Retrieval-Augmented Emotion Reasoning for Compound Emo

文章目录

  • 核心问题
  • 核心思想与动机
  • 提出的方法
    • A. 检索增强情感推理框架 (RAER)
    • B. 刺激武装强盗评估框架 (SAB)
    • C. 复合情感问答数据集 (Compound Emotion QA Dataset)
  • 主要贡献

核心问题

通用的大语言模型(LLMs)和多模态大语言模型(MLLMs)在情感理解方面存在显著挑战 :

  • 复合情感和模糊性 (Compound and Ambiguous Emotions):传统的情感识别模型(如基于“Big Six”离散标签或 VAD 维度标签的模型)难以充分捕捉人类情感表达中复杂细微的差别,尤其是在涉及复合情感上下文丰富的情景中 。
  • 标注的主观性和不一致性 (Subjectivity and Inconsistency):基于心理学理论的人类标注,由于情感感知的主观性,往往导致标注结果不一致,这限制了现有模型的鲁棒性 。
  • 缺乏细粒度的评估方法 (Lack of Fine-grained Evaluation):现有的评估框架难以系统性地评估模型处理复杂情感推理的能力,特别是那些难以量化的任务 。

核心思想与动机

核心思想是利用检索增强生成 (RAG)的能力,为 MLLM 提供外部、上下文相关的情感知识,从而提升其在复杂情感情景中的推理能力

  • 动机:为了解决现有模型在处理复合情感时的局限性,论文提出了一种更像人类、更细致入微的方法 。通过 RAG 引入外部知识,可以指导 MLLM 进行更深入的情感推理,而不是仅仅依赖模型自身的参数化知识 。
  • 关键机制:结合 RAG 和思维链 (Chain-of-Thought, CoT) 推理,构建RAER (Retrieval-Augmented Emotion Reasoning)框架。

提出的方法

论文提出了两个主要框架和一个新数据集:

A. 检索增强情感推理框架 (RAER)

RAER 是一个即插即用 (plug-and-play)的模块,旨在增强 MLLMs 处理复合情感的能力 。

  • 情感知识库构建 (Emotional Knowledge Base):知识库最初由多模态情感数据集构建,将面部表情、情感音频情感描述等多样化输入编码为高维向量嵌入 。这个知识库会动态更新,通过添加 RAER 在推理过程中生成的高置信度样本进行演化和扩展。
  • 情感推理与思维链 (Emotion Reasoning CoT):RAER 利用 CoT 机制指导 MLLM 进行结构化推理 。当模型在生成初始回复时遇到情感歧义或不确定性时,它会触发检索机制 。
  • 检索增强 (Retrieval Augmentation):当情感线索不一致时(Cues Inconsistent),系统通过K-近邻 (K-Nearest Neighbors)搜索从向量数据库中检索最相似的例子及其关联的情感描述 。这些检索到的上下文用于细化模型对情感线索的理解和消除歧义,从而生成更准确、更符合上下文的推论 。

B. 刺激武装强盗评估框架 (SAB)

  • 目的:这是一个新颖的评估方法,专为评估 MLLMs 的复合情感能力而设计,特别是在开放式语言上下文和难以量化的任务中 。
  • 机制:它受到经典多臂强盗 (multi-armed bandit) 问题的启发 。SAB 结合 AI 生成的多模态刺激 (Stimuli)和情感任务,通过两两比较 (Pairwise Comparisons),收集人类或 AI 评估者的偏好判断
  • 评分:使用Elo 评分机制动态调整模型的排名分数,以评估模型在动态和复合情感上下文中的表现 。

C. 复合情感问答数据集 (Compound Emotion QA Dataset)

用于强化 MLLMs 的情感理解能力

  • 生成方式:它结合了 RAER 生成的回复和 SAB 收集的人类偏好信息。
  • 内容结构:数据集中的每个样本都包含一个首选回复 (preferred response) 和一个非首选回复 (non-preferred counterpart),形成一个成对偏好实例 (pairwise preference instance) 。
  • 构建流程
    1. 刺激生成 (Stimulus Generation):使用 GPT-4 或 GPT-4o 生成情感中性关键词 。然后,使用像 Sora(用于视觉)和 AudioGen(用于音频)等生成模型,基于这些关键词创建多样化的多模态刺激(如视频、音频)。
    2. 任务公式化 (Task Formulation):将这些多模态刺激与 MER(多模态情感识别)或 MERG(多模态共情回复生成)任务随机匹配,形成任务提示(Task Prompt)。
    3. 模型推理和偏好判断 (Inference and Preference Judgment):目标 MLLM(如 VideoLLaMA2)对生成的刺激进行多模态推理并生成相应回复 。这些回复随后通过 SAB 框架进行评估,评估基于人类或 GPT-4o 的偏好判断 。

主要贡献

  1. 提出 RAER 框架:首个结合检索增强生成情感推理链的方法,以增强 MLLMs 处理复合情感任务的能力 。
  2. 引入 SAB 评估框架:提出了Stimulus-Armed Bandit (SAB)框架,用于系统性地评估 MLLMs 在复合情感场景中的表现,并能有效收集人类偏好信号 。
  3. 构建 Compound Emotion QA 数据集:创建了一个包含复合情感任务的多模态问答数据集,旨在提升 MLLMs 的复合情感能力。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/23 17:22:17

内点法求最优潮流附matlab代码

✅作者简介:热爱科研的Matlab仿真开发者,擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页:Matlab科研工作室🍊个人信条:格物致知,完整Matlab代码及仿真咨询…

作者头像 李华
网站建设 2026/6/23 19:46:03

三相PWM整流器有限集模型预测电流控制附Simulink仿真模型

✅作者简介:热爱科研的Matlab仿真开发者,擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页:Matlab科研工作室🍊个人信条:格物致知,完整Matlab代码及仿真咨询…

作者头像 李华
网站建设 2026/6/23 19:46:58

光伏四可“可观”功能:光伏电站全景数字化的底层支撑技术

在光伏产业从“规模扩张”向“质量提升”转型的关键阶段,全景数字化已成为电站降本增效、安全运维的核心路径。而实现光伏电站“设备状态全可视、运行数据全可溯、管理决策全可依”的“可观”功能,正是支撑这一转型的底层技术基石。不同于传统光伏监控仅…

作者头像 李华
网站建设 2026/6/23 7:03:03

如何用FLUX.1-dev镜像在本地部署下一代AI绘画模型?

如何用FLUX.1-dev镜像在本地部署下一代AI绘画模型? 在数字创作的前沿战场上,一个核心矛盾正日益凸显:用户对图像生成质量的要求越来越高——不仅要“像”,还要“准”;不仅要有美感,更要精准响应复杂提示。而…

作者头像 李华
网站建设 2026/6/23 19:45:18

基于 Comsol 移动网格方法的激光熔池流动数值模拟

基于comsol移动网格方法的激光熔池流动数值模拟,包含马兰戈尼对流,表面张力,重力和浮力,欢迎交流在材料加工领域,激光熔池流动的数值模拟对于理解和优化工艺过程至关重要。今天咱就聊聊基于 Comsol 移动网格方法来模拟…

作者头像 李华