news 2026/6/23 21:47:44

【2025 ACL】Listen, Watch, and Learn to Feel: Retrieval-Augmented Emotion Reasoning for Compound Emo

张小明

前端开发工程师

1.2k 24

文章封面图 — 【2025 ACL】Listen, Watch, and Learn to Feel: Retrieval-Augmented Emotion Reasoning for Compound Emo

文章目录

核心问题
核心思想与动机
提出的方法
- A. 检索增强情感推理框架 (RAER)
- B. 刺激武装强盗评估框架 (SAB)
- C. 复合情感问答数据集 (Compound Emotion QA Dataset)
主要贡献

核心问题

通用的大语言模型（LLMs）和多模态大语言模型（MLLMs）在情感理解方面存在显著挑战：

复合情感和模糊性 (Compound and Ambiguous Emotions):传统的情感识别模型（如基于“Big Six”离散标签或 VAD 维度标签的模型）难以充分捕捉人类情感表达中复杂和细微的差别，尤其是在涉及复合情感和上下文丰富的情景中。
标注的主观性和不一致性 (Subjectivity and Inconsistency):基于心理学理论的人类标注，由于情感感知的主观性，往往导致标注结果不一致，这限制了现有模型的鲁棒性。
缺乏细粒度的评估方法 (Lack of Fine-grained Evaluation):现有的评估框架难以系统性地评估模型处理复杂情感推理的能力，特别是那些难以量化的任务。

核心思想与动机

核心思想是利用检索增强生成 (RAG)的能力，为 MLLM 提供外部、上下文相关的情感知识，从而提升其在复杂情感情景中的推理能力。

动机：为了解决现有模型在处理复合情感时的局限性，论文提出了一种更像人类、更细致入微的方法。通过 RAG 引入外部知识，可以指导 MLLM 进行更深入的情感推理，而不是仅仅依赖模型自身的参数化知识。
关键机制：结合 RAG 和思维链 (Chain-of-Thought, CoT) 推理，构建RAER (Retrieval-Augmented Emotion Reasoning)框架。

提出的方法

论文提出了两个主要框架和一个新数据集：

A. 检索增强情感推理框架 (RAER)

RAER 是一个即插即用 (plug-and-play)的模块，旨在增强 MLLMs 处理复合情感的能力。

情感知识库构建 (Emotional Knowledge Base):知识库最初由多模态情感数据集构建，将面部表情、情感音频和情感描述等多样化输入编码为高维向量嵌入。这个知识库会动态更新，通过添加 RAER 在推理过程中生成的高置信度样本进行演化和扩展。
情感推理与思维链 (Emotion Reasoning CoT):RAER 利用 CoT 机制指导 MLLM 进行结构化推理。当模型在生成初始回复时遇到情感歧义或不确定性时，它会触发检索机制。
检索增强 (Retrieval Augmentation):当情感线索不一致时（Cues Inconsistent），系统通过K-近邻 (K-Nearest Neighbors)搜索从向量数据库中检索最相似的例子及其关联的情感描述。这些检索到的上下文用于细化模型对情感线索的理解和消除歧义，从而生成更准确、更符合上下文的推论。

B. 刺激武装强盗评估框架 (SAB)

目的：这是一个新颖的评估方法，专为评估 MLLMs 的复合情感能力而设计，特别是在开放式语言上下文和难以量化的任务中。
机制：它受到经典多臂强盗 (multi-armed bandit) 问题的启发。SAB 结合 AI 生成的多模态刺激 (Stimuli)和情感任务，通过两两比较 (Pairwise Comparisons)，收集人类或 AI 评估者的偏好判断。
评分：使用Elo 评分机制动态调整模型的排名分数，以评估模型在动态和复合情感上下文中的表现。

C. 复合情感问答数据集 (Compound Emotion QA Dataset)

用于强化 MLLMs 的情感理解能力

生成方式：它结合了 RAER 生成的回复和 SAB 收集的人类偏好信息。
内容结构：数据集中的每个样本都包含一个首选回复 (preferred response) 和一个非首选回复 (non-preferred counterpart)，形成一个成对偏好实例 (pairwise preference instance) 。

构建流程
1. 刺激生成 (Stimulus Generation):使用 GPT-4 或 GPT-4o 生成情感中性关键词。然后，使用像 Sora（用于视觉）和 AudioGen（用于音频）等生成模型，基于这些关键词创建多样化的多模态刺激（如视频、音频）。
2. 任务公式化 (Task Formulation):将这些多模态刺激与 MER（多模态情感识别）或 MERG（多模态共情回复生成）任务随机匹配，形成任务提示（Task Prompt）。
3. 模型推理和偏好判断 (Inference and Preference Judgment):目标 MLLM（如 VideoLLaMA2）对生成的刺激进行多模态推理并生成相应回复。这些回复随后通过 SAB 框架进行评估，评估基于人类或 GPT-4o 的偏好判断。

主要贡献

提出 RAER 框架：首个结合检索增强生成和情感推理链的方法，以增强 MLLMs 处理复合情感任务的能力。
引入 SAB 评估框架：提出了Stimulus-Armed Bandit (SAB)框架，用于系统性地评估 MLLMs 在复合情感场景中的表现，并能有效收集人类偏好信号。
构建 Compound Emotion QA 数据集：创建了一个包含复合情感任务的多模态问答数据集，旨在提升 MLLMs 的复合情感能力。

版权声明: 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系邮箱：809451989@qq.com进行投诉反馈，一经查实，立即删除！

网站建设 2026/6/23 19:06:20

AI编程革命！Claude Skills大揭秘：小白也能快速上手的Agent开发神器，大模型开发者必看！

今年 10 月，Anthropic 推出了 Claude Skills 能力，在 Claude 网页端、API 以及 Claude Code等产品都可以使用。当前互联网对 Claude Skills 的关注度并不高，但仔细了解之后，我认为 Claude Skills（或者 Agent Skills&am…

作者头像

李华

网站建设 2026/6/23 17:22:17

内点法求最优潮流附matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

作者头像

李华

网站建设 2026/6/23 19:46:03

三相PWM整流器有限集模型预测电流控制附Simulink仿真模型

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

作者头像

李华

网站建设 2026/6/23 19:46:58

光伏四可“可观”功能：光伏电站全景数字化的底层支撑技术

在光伏产业从“规模扩张”向“质量提升”转型的关键阶段，全景数字化已成为电站降本增效、安全运维的核心路径。而实现光伏电站“设备状态全可视、运行数据全可溯、管理决策全可依”的“可观”功能，正是支撑这一转型的底层技术基石。不同于传统光伏监控仅…

作者头像

李华

网站建设 2026/6/23 7:03:03

如何用FLUX.1-dev镜像在本地部署下一代AI绘画模型？

如何用FLUX.1-dev镜像在本地部署下一代AI绘画模型？ 在数字创作的前沿战场上，一个核心矛盾正日益凸显：用户对图像生成质量的要求越来越高——不仅要“像”，还要“准”；不仅要有美感，更要精准响应复杂提示。而…

作者头像

李华

网站建设 2026/6/23 19:45:18

基于 Comsol 移动网格方法的激光熔池流动数值模拟

基于comsol移动网格方法的激光熔池流动数值模拟，包含马兰戈尼对流，表面张力，重力和浮力，欢迎交流在材料加工领域，激光熔池流动的数值模拟对于理解和优化工艺过程至关重要。今天咱就聊聊基于 Comsol 移动网格方法来模拟…

作者头像

李华