← 返回首页
CVPR 2026 | 小米×武大3B模型学会共情,暴打一众强化学习基线|cvpr|小米|推理|新论文|模态|武大|知名企业_手机网易网 网易 网易号 0

CVPR 2026 | 小米×武大3B模型学会共情,暴打一众强化学习基线

新浪财经
新浪财经
2026-05-15 22:11 ·北京 ·优质财经领域创作者
0

来源:市场资讯

(来源:PaperWeekly)

本文介绍的研究来自 CVPR 2026,作者团队来自小米大模型 Plus 团队与武汉大学计算机学院。武汉大学团队在视觉理解、多模态推理和情绪计算方面积累深厚,小米大模型 Plus 团队则在大模型训练、强化学习框架和工程化落地方面经验丰富。

过去一段时间,多模态大模型(MLLMs)的进展主要集中在视觉问答、图像描述、跨模态生成等「认知型」任务上。

但如果大模型的能力只停留在「看懂世界」,那它离真正的类人智能还差一个关键维度。

真正更值得追问的问题是:模型能不能不只是「看见」画面,而是「感受」画面——理解一张图像背后的情绪因果链,像人一样先观察、再共情、最后判断?

近期,武汉大学与小米大模型 Plus 团队联合提出的 EMO-R3 尝试去回答上述问题。

从结果上看,这条路线确实带来了实际性能收益:EMO-R3 基于仅 3B 参数的 Qwen2.5-VL-3B-Instruct,在域内和域外情绪推理任务上均显著超越 GRPO、DAPO 等当前最强的强化学习基线。

这说明,情绪理解的瓶颈不在于模型参数量,而在于训练范式是否与情绪认知的内在结构相匹配。只要给模型植入正确的推理框架和反思机制,即使是轻量模型也能展现出远超基线的情绪推理能力。

打开网易新闻 查看精彩图片

论文地址:

https://arxiv.org/abs/2602.23802

打开网易新闻 查看精彩图片

重新思考情绪理解的价值与存在的问题

现有多数将强化学习应用于情绪任务的方法,仍然停留在把通用 RL 框架直接搬来用的阶段——用 GRPO 训练情绪模型,就像用数学题的做题方法去做阅读理解。

EMO-R3 想推动大家重新思考这个方向的目标函数:情绪理解不是一个简单的分类问题,而是一个需要结构化推理的任务。

人类判断情绪时会经历从「看见什么」到「感受到什么」再到「做出判断」的完整认知链条,而现有方法完全没有建模这个过程。

换句话说,情绪 AI 最值得做的事,是让模型像人一样经历「先观察、再感受、最后判断」的推理过程,而不是把「贴对标签」本身当作终点。

打开网易新闻 查看精彩图片

〓 图1. 动机说明:a) SFT 依赖人类注释,受限于固定标签和有限类别,导致泛化和可解释性差。它在「风景-敬畏」等域内配对上表现良好,但在域外或未见过的情况下(如「运动-惊喜」)表现不佳;b) GRPO 虽提高了泛化能力,但其思维过程不以情感为导向,与最终答案联系薄弱(如推理过程得出「娱乐」,预测却是「恐惧」)。

基于这一观察,EMO-R3 揭示了现有方法的两个结构性缺陷。

首先是 SFT 的「死记硬背」问题。监督微调在情绪任务中看似有效,但它学到的往往只是训练数据分布内的情感—场景对应关系,而不是真正理解图像中情绪产生的原因。

比如,若训练集中缺少“惊讶”这类情绪,模型在测试时就很难准确识别相关样本;同样,如果训练数据主要集中在风景场景,模型也往往难以泛化到动作等其他场景中的情绪表达。

也就是说,SFT 更擅长拟合“见过的分布” ,一旦遇到超出训练分布的组合,性能就会明显下降。图 1(a) 展示的正是这种典型局限:模型能够给出答案,却缺乏跨场景、跨情绪的泛化能力,同时也无法解释具体的原因。

第二是 GRPO 在情绪任务中「无法适应」问题。GRPO 在数学推理中表现出色,一个关键原因是这类任务中推理过程与最终答案高度耦合:只要中间推错一步,答案通常也会随之出错。

但情绪理解并非如此。正如图 1(b) 所示,模型即使生成了一段与情绪判断并不一致、甚至偏离图像内容的推理,也仍有可能凭借偶然匹配猜中标签,从而获得奖励。

与此同时,通用 GRPO 所生成的推理过程往往遵循的是一般性 reasoning pattern,而不是人类进行情绪理解时更自然的认知路径,这进一步导致模型难以形成可靠的情绪推理能力。

也正因为如此,通用强化学习框架在情绪任务上集体「水土不服」,不是因为 RL 本身不好用,而是情绪推理有着与数学推理截然不同的内在结构——推理链与答案之间是弱耦合的,只奖励答案无法约束推理过程。

打开网易新闻 查看精彩图片

EMO-R3 的模型设计

打开网易新闻 查看精彩图片

〓 图2. EMO-R3 的完整架构。上半部分为结构化情感推理提示词模块,包含三步递进式推理流程,并最终输出情感答案。下半部分展示反思式情感奖励机制:该机制对多组推演样本进行评估,综合考量图文一致性与情感逻辑连贯性,并在 GRPO 框架下,结合原有格式奖励与精度奖励完成联合优化。

围绕这一目标,EMO-R3 主要包含三个关键设计。

首先是 Structured Emotional Thinking(SET)——让模型模拟人类的情绪认知。

传统 GRPO 中模型的思考过程是完全自由的,生成的 think 文本往往碎片化、与情绪无关、缺乏逻辑连贯性。SET 将这种自由散漫的思考过程约束为模拟人类情绪认知的三步结构。

第一步是情绪触发识别:模型必须指出图像中哪些具体的视觉元素(表情、动作、色调、环境)可能触发情绪反应。

第二步是人类情绪反应:模型需要描述人类看到这些元素后会产生怎样的情绪体验——是紧张、放松、愉悦还是不安。

第三步是情绪结论:把前两步的推理结果整合为最终判断,包括情绪极性(正/负)和唤醒度(高/低)。

这三步对应认知心理学中情绪产生的三个阶段:感知刺激、情绪唤起、认知评价。

通过强制模型遵循这个结构,每一步思考都有了明确的语义,不再是东一句西一句的自由散漫。更重要的是,这个结构为下一步的「质量检查」提供了可操作的基础。

第二是 Reflective Emotional Reward(RER)——让模型学会反思自己的推理。

让模型模拟人类的情绪认知还不够,模型可能按格式写了三步,内容却全是胡说八道。RER 的核心思想非常直接:既然推理链不可靠,那就让模型自己检查自己。

RER 由两部分组成。图文一致性检查把 Step 1 的描述和原图一起送回模型,让它判断「这段视觉描述跟图片对得上吗?」对得上给分,对不上扣分,从源头杜绝「编造视觉内容」。

情绪连贯性检查则把 Step 1 和 Step 2 合在一起送回模型,问「根据这段推理,应该是什么情绪?」推出的情绪跟标准答案一致就给分,不一致就扣分,保证推理链和结论之间的逻辑绑定。

这意味着,RER 把奖励信号从「答案对不对」扩展到了「推理过程对不对」——这是情绪任务第一次真正实现对推理链质量的直接监督,而不是只靠答案间接约束。

第三是 Cold-Start-Emo 冷启动策略。

预训练模型自带的情绪常识往往与下游数据集的标注标准对不上。比如模型觉得「独自散步」是忧伤的,数据集却标注为「平静」。如果直接上强化学习,大量奖励信号会因为这种错位而失效,训练陷入恶性循环。

Cold-Start-Emo 用少量样本做一次极轻量的微调,只为让模型快速理解「这个任务的标签长什么样」——不教它怎么推理,只教它任务格式和标签体系,然后把真正的推理能力交给 RL 去打磨。

打开网易新闻 查看精彩图片

实验结果

EMO-R3 的实验覆盖了 in-domain 和 out-of-domain 两类场景。

研究团队选择了三个经典的视觉情绪数据集:EmoSet(8 类)、Emotion6(6 类)和 WebEmo(7 类),并分别在 EmoSet 和 Emotion6 上进行训练,再在其他数据集上测试跨域表现。

基础模型采用 Qwen2.5-VL-3B-Instruct,对比方法包括 Vanilla(无训练)、SEPM(训练-free 方法)、GRPO 和 DAPO 等强化学习范式。

打开网易新闻 查看精彩图片

〓 图3:EMO-R3 与最先进 GRPO 变体在域内和域外情绪推理任务上的性能对比。标有上标 I 的数据集(如 EmoSet^I 和 Emotion6^I)表示域内训练数据集。EMO-R3 在所有设置下均取得最佳表现。

实验结果表明EMO-R3 能够在整体性能上带来稳定且一致的提升。这说明,结构化推理与反思式奖励确实增强了模型的泛化能力——情绪推理不再是「记住训练集的标签分布」,而是真正学会了如何推理情绪。

打开网易新闻 查看精彩图片

〓 图4:训练过程中的训练和测试准确率曲线。EMO-R3 整体优于其他两个基线模型。

训练稳定性也大幅提升,RER 的引入有效减少了 GRPO 在情绪任务中的震荡与不收敛问题。

〓图5:同一张图片,GRPO 和 EMO-R3 的推理对比。
打开网易新闻 查看精彩图片
〓图5:同一张图片,GRPO 和 EMO-R3 的推理对比。

为了更直观地展示 EMO-R3 的推理质量提升,论文给出了一组典型案例对比。

场景是一个人坐在开满花的树下,背景是平静的水面,正确情绪是「contentment(满足)」。GRPO 的推理过程写了「场景平静、人物在享受自然」——逻辑完全指向积极情绪,然后最终答案一拍脑门选了「sadness」。

而 EMO-R3 严格按三步结构推理:先识别花朵盛开和人物放松的状态,再描述由此产生的平和与安宁感受,最终自然而然地得出「contentment」。

这一案例表明 EMO-R3 能够准确捕捉细微的情感线索,并展现出情绪连贯的推理,从而实现更好的情绪理解。

这说明,当推理过程必须经得起「自我检查」时,模型就没法再用碎片化的文字敷衍了事。RER 反思机制让推理链从「随便写写」变成了「有结构、有逻辑、有依据」。

打开网易新闻 查看精彩图片

〓 图6:训练过程的效率分析

在训练效率方面,RER 的引入大约增加 1.26 倍训练时间,主要来自对每个 rollout 多做两次前向推理。

但有两个关键点:第一,推理阶段完全不需要反思模块,部署后的模型跟普通模型一样快;第二,对比 DAPO 训练到一半崩溃白白浪费全部算力,多花 26% 换来稳定收敛,这笔账怎么算都划算。

从更大的角度看,EMO-R3 想推动大家重新思考情绪理解的训练范式。它不应该只是把通用 RL 搬过来用,而应该从任务本身的认知结构出发,设计与之匹配的推理框架和奖励机制。

EMO-R3 做的三件事——定义推理应该长什么样(SET)、确保推理过程经得起检验(RER)、解决从零开始的冷启动问题(Cold-Start-Emo)——构成了一套完整的方法论。

这套思路不局限于情绪任务:美学评价、道德判断、文化理解……任何推理链与答案弱耦合的主观任务,都可能从中受益。

对情绪智能来说,真正重要的,也许从来不是「识别情绪」,而是能不能像人一样,先看见、再感受、最后才判断。

特别声明:本文为网易自媒体平台“网易号”作者上传并发布,仅代表该作者观点。网易仅提供信息发布平台。
打开网易新闻体验更佳

热搜

热门跟贴

相关推荐

回到顶部 回到首页