随着机器人在灵活性和其他物理能力方面的持续进步,人类与机器人并肩工作的场景正变得越来越可能实现。但若要真正实现这一愿景,机器人的情感感知能力又需要达到怎样的水平?
一项最新研究给出了新的探索方向。研究人员训练协作机器人识别人类情绪,不仅考虑面部表情,还综合了交互过程中的多种情境因素。通过与40名志愿者开展实验,研究团队评估了机器人读取人类情绪并相应调整行为的能力,以及这一能力对人类在协作任务中对机器人的感知与评价所产生的影响。相关研究成果已于5月18日发表在《IEEE机器人与自动化快报》上,研究结果表明,机器人的情感能力对人类的影响存在明显上限。
该研究由就读于澳大利亚墨尔本大学的本科生洪承灿(Seung Chan Hong)作为学士论文课题主导完成。他指出,尽管机器人物理能力的提升备受关注,但这仅是整个问题的一个方面。"我们还需要在机器人与人类的实际交互方式上进行创新,而不仅仅是提升其物理能力。"他说道。
正是这一认识促使他深入研究人机交互中的情感层面。洪承灿与合作者决定采用视觉语言模型(VLM)来训练机器人识别人类情绪。视觉语言模型与ChatGPT等大语言模型类似,但还能够处理视觉输入信息。
为训练这一视觉语言模型,研究人员让志愿者观看机器人向人类传递物品的视频——视频中任务完成情况各有不同——并要求志愿者描述视频中人物所表达的情绪。值得注意的是,参与视频标注的志愿者能够结合更多情境信息进行判断,而不仅仅依赖画面中人物的面部表情。例如,一个人皱着眉头停下来思考,可能只是在专注于手头的任务,而并非表示愤怒。手指轻叩桌面、嘴唇紧抿或其他行为举止等情境因素,才能更准确地揭示皱眉背后的真实原因。
研究人员随后将该视觉语言模型与人机交互领域常用的传统AI系统进行了对比,后者依赖标准面部分析和目标跟踪技术。结果显示,视觉语言模型的表现明显优于传统方法。在0到1的评分标准中(0代表与人类志愿者识别的情绪含义完全不符,1代表完全一致),传统AI系统得分为0.77,而视觉语言模型得分达到0.86。
洪承灿表示:"我认为视觉语言模型之所以能更好地与人类观察者的判断相吻合,是因为它不只是在短时间内观察人的面部,而是观察整个场景——包括人所处的位置、正在做什么,以及如何与机器人互动。"
在第二项实验中,研究团队让40名志愿者与搭载视觉语言模型的机器人进行交互,并有意为机器人设置了操作失误。机器人随后需要做出两种回应之一:一种是根据人类对失误的感知反应做出情感适应性道歉,另一种则是播放预先录制的标准道歉语。
结果显示,参与者压倒性地倾向于情感适应性回应,40人中有31人更偏好这种方式,而非千篇一律的标准道歉。
然而,调查结果也揭示出一个关键问题:情感适应能力的重要性远不及机器人本身的功能表现。在与一个任务失败的机器人协作之后,许多参与者对机器人的信任度明显下降,无论机器人以何种方式道歉,这一结果几乎没有变化。"个性化的道歉充当了一种社交润滑剂,但它无法修复机器人因任务失败而损失的信任。"洪承灿说道。
有趣的是,视觉语言模型对合作伙伴情绪的判断与以第三方视角观察互动过程的人类志愿者的判断较为接近。但当视觉语言模型的评估结果与第二项实验中参与者自我报告的情绪进行比对时——后者是对其真实情绪的最准确描述——模型的情绪预测准确率出现了显著下降。
"视觉语言模型善于观察外在的社交信号,但它并不是读心术。"洪承灿说,"它与第三方人类观察者的判断高度吻合,但并不总能与用户内心真实的自我感受保持一致。"
综合来看,上述研究结果表明,机器人在读懂人类情绪方面尚不完善。因此,尽管人们或许会欣赏机器人在情感方面所做的努力,但归根结底,人类仍然希望拥有一个真正称职的协作伙伴。
Q&A
Q1:视觉语言模型与普通大语言模型有什么区别?
A:视觉语言模型(VLM)与ChatGPT等大语言模型类似,但额外具备处理视觉输入的能力。在机器人情绪识别研究中,VLM不仅能分析人的面部表情,还能结合整体场景信息——包括人物所处位置、行为动作以及与机器人的互动方式——从而做出更准确的情绪判断,其情绪识别评分达到0.86,高于传统AI系统的0.77。
Q2:机器人的情感适应能力能提升人类对它的信任吗?
A:实验结果显示,情感适应能力的提升效果十分有限。虽然40名参与者中有31人更偏好机器人的个性化道歉方式,但在机器人出现任务失误后,大多数人对其信任度仍然明显下降,与道歉方式无关。研究者指出,个性化道歉只是一种"社交润滑剂",无法弥补机器人因功能失败造成的信任损失。
Q3:视觉语言模型能准确读懂人类的真实情绪吗?
A:目前还做不到完全准确。研究发现,视觉语言模型在判断情绪方面与第三方观察者的结论较为一致,但与用户自我报告的真实内心感受相比,准确率出现了明显下滑。这说明视觉语言模型善于捕捉外在社交信号,但尚无法真正洞察人类的内在情绪状态。
好文章,需要你的鼓励
擎天智卡(QCraft)近日在高通无锡汽车技术峰会上,展示了基于高通SA8650P骁龙Ride平台的城市领航辅助驾驶(NOA)系统,现场进行了真实城市道路试乘体验。车辆成功应对无保护左转、人车混流、隧道、主辅路切换及拥堵场景。QCraft表示,其QPilot系统已搭载近30款量产车型,累计支持超35亿公里用户驾驶里程,2026年全球量产计划稳步推进。
新加坡国立大学研究发现,AI基础模型在预训练后已潜藏自我评估能力,无需大量数据,用两步循环即可激活,大幅提升预测评判者打分的准确性。
苹果iOS 27将视觉智能功能整合进相机应用,作为全新的Siri模式呈现。此前,长按相机控制按钮会触发视觉智能,与快速点击启动相机形成割裂体验,误触时难以快速退出。新版本中,用户只需在Siri模式与拍照模式间滑动切换,操作更加流畅自然。结合iOS 26将相机控制专注于摄影功能的设计方向,此次改进大幅提升了iPhone专属快门键的使用体验。
PIPE-Cypher是一套本地化企业图数据库测试题生成流水线,可自动从私有属性图中生成均衡、可执行、隐私安全的自然语言转Cypher查询基准集,并支持周期性刷新。