视觉语言模型助力机器人读懂人类情绪

澳大利亚墨尔本大学研究人员训练协作机器人通过视觉语言模型(VLM)读取人类情绪,不仅分析面部表情,还综合考量交互情境因素。实验结果显示,VLM在情绪识别准确度上(0.86分)明显优于传统AI系统(0.77分)。研究同时发现,尽管情绪自适应道歉更受用户青睐,但机器人的功能可靠性对人类信任感的影响远超其情绪能力,表明机器人情绪识别仍有局限。

随着机器人在灵活性和其他物理能力方面的持续进步,人类与机器人并肩工作的场景正变得越来越可能实现。但若要真正实现这一愿景,机器人的情感感知能力又需要达到怎样的水平?

一项最新研究给出了新的探索方向。研究人员训练协作机器人识别人类情绪,不仅考虑面部表情,还综合了交互过程中的多种情境因素。通过与40名志愿者开展实验,研究团队评估了机器人读取人类情绪并相应调整行为的能力,以及这一能力对人类在协作任务中对机器人的感知与评价所产生的影响。相关研究成果已于5月18日发表在《IEEE机器人与自动化快报》上,研究结果表明,机器人的情感能力对人类的影响存在明显上限。

该研究由就读于澳大利亚墨尔本大学的本科生洪承灿(Seung Chan Hong)作为学士论文课题主导完成。他指出,尽管机器人物理能力的提升备受关注,但这仅是整个问题的一个方面。"我们还需要在机器人与人类的实际交互方式上进行创新,而不仅仅是提升其物理能力。"他说道。

正是这一认识促使他深入研究人机交互中的情感层面。洪承灿与合作者决定采用视觉语言模型(VLM)来训练机器人识别人类情绪。视觉语言模型与ChatGPT等大语言模型类似,但还能够处理视觉输入信息。

为训练这一视觉语言模型,研究人员让志愿者观看机器人向人类传递物品的视频——视频中任务完成情况各有不同——并要求志愿者描述视频中人物所表达的情绪。值得注意的是,参与视频标注的志愿者能够结合更多情境信息进行判断,而不仅仅依赖画面中人物的面部表情。例如,一个人皱着眉头停下来思考,可能只是在专注于手头的任务,而并非表示愤怒。手指轻叩桌面、嘴唇紧抿或其他行为举止等情境因素,才能更准确地揭示皱眉背后的真实原因。

研究人员随后将该视觉语言模型与人机交互领域常用的传统AI系统进行了对比,后者依赖标准面部分析和目标跟踪技术。结果显示,视觉语言模型的表现明显优于传统方法。在0到1的评分标准中(0代表与人类志愿者识别的情绪含义完全不符,1代表完全一致),传统AI系统得分为0.77,而视觉语言模型得分达到0.86。

洪承灿表示:"我认为视觉语言模型之所以能更好地与人类观察者的判断相吻合,是因为它不只是在短时间内观察人的面部,而是观察整个场景——包括人所处的位置、正在做什么,以及如何与机器人互动。"

在第二项实验中,研究团队让40名志愿者与搭载视觉语言模型的机器人进行交互,并有意为机器人设置了操作失误。机器人随后需要做出两种回应之一:一种是根据人类对失误的感知反应做出情感适应性道歉,另一种则是播放预先录制的标准道歉语。

结果显示,参与者压倒性地倾向于情感适应性回应,40人中有31人更偏好这种方式,而非千篇一律的标准道歉。

然而,调查结果也揭示出一个关键问题:情感适应能力的重要性远不及机器人本身的功能表现。在与一个任务失败的机器人协作之后,许多参与者对机器人的信任度明显下降,无论机器人以何种方式道歉,这一结果几乎没有变化。"个性化的道歉充当了一种社交润滑剂,但它无法修复机器人因任务失败而损失的信任。"洪承灿说道。

有趣的是,视觉语言模型对合作伙伴情绪的判断与以第三方视角观察互动过程的人类志愿者的判断较为接近。但当视觉语言模型的评估结果与第二项实验中参与者自我报告的情绪进行比对时——后者是对其真实情绪的最准确描述——模型的情绪预测准确率出现了显著下降。

"视觉语言模型善于观察外在的社交信号,但它并不是读心术。"洪承灿说,"它与第三方人类观察者的判断高度吻合,但并不总能与用户内心真实的自我感受保持一致。"

综合来看,上述研究结果表明,机器人在读懂人类情绪方面尚不完善。因此,尽管人们或许会欣赏机器人在情感方面所做的努力,但归根结底,人类仍然希望拥有一个真正称职的协作伙伴。

Q&A

Q1:视觉语言模型与普通大语言模型有什么区别?

A:视觉语言模型(VLM)与ChatGPT等大语言模型类似,但额外具备处理视觉输入的能力。在机器人情绪识别研究中,VLM不仅能分析人的面部表情,还能结合整体场景信息——包括人物所处位置、行为动作以及与机器人的互动方式——从而做出更准确的情绪判断,其情绪识别评分达到0.86,高于传统AI系统的0.77。

Q2:机器人的情感适应能力能提升人类对它的信任吗?

A:实验结果显示,情感适应能力的提升效果十分有限。虽然40名参与者中有31人更偏好机器人的个性化道歉方式,但在机器人出现任务失误后,大多数人对其信任度仍然明显下降,与道歉方式无关。研究者指出,个性化道歉只是一种"社交润滑剂",无法弥补机器人因功能失败造成的信任损失。

Q3:视觉语言模型能准确读懂人类的真实情绪吗?

A:目前还做不到完全准确。研究发现,视觉语言模型在判断情绪方面与第三方观察者的结论较为一致,但与用户自我报告的真实内心感受相比,准确率出现了明显下滑。这说明视觉语言模型善于捕捉外在社交信号,但尚无法真正洞察人类的内在情绪状态。

来源:Spectrum

0赞

好文章,需要你的鼓励

2026

06/15

13:02

分享

点赞

邮件订阅