搭载摄像头的耳机:VueBuds能否取代智能眼镜?

华盛顿大学研究人员开发了一款名为VueBuds的原型耳机,在每只耳塞内嵌入低分辨率摄像头,通过蓝牙将灰度图像传输至手机端视觉语言模型处理。其功能与Ray-Ban Meta智能眼镜相当,可实现翻译标识、辅助低视力用户、识别植物等。测试中综合准确率达87%。相较智能眼镜,该方案更节能、更便于收纳,数据仅在本地处理,隐私保护更优。

智能手机摄像头和部分智能眼镜已经能够让用户向AI模型发起查询,获取眼前所见事物的相关信息。未来,这一能力或许将延伸至更多设备,包括无线耳机。

华盛顿大学的研究人员开发了一款名为VueBuds的耳机原型,每只耳机内均集成了一枚小型低分辨率摄像头。这款原型耳机具备与智能眼镜类似的功能——例如Ray-Ban Meta眼镜所支持的翻译外语路牌、辅助低视力用户、或在户外徒步时识别植物种类等。

智能眼镜自身存在诸多局限,隐私问题和佩戴舒适性是其中的主要痛点。内置摄像头因可能在用户不知情的情况下拍摄旁观者,以及所采集的敏感视觉数据最终流向何处等问题,已引发批评和法律诉讼。

此外,并非所有人都习惯佩戴眼镜,甚至有人选择隐形眼镜来规避这一麻烦——主导VueBuds研究的华盛顿大学教授Shyam Gollakota本人便是如此。他表示:"几乎人人都会佩戴的主流可穿戴设备,就是耳机。"他的团队将耳机定位为智能眼镜的替代方案,认为其侵入性更低、对隐私更为友好。

不过,这项研究的首要目标是验证这种小巧的耳戴式形态是否具备可行性。Gollakota表示:"传统耳机一直局限于音频交互界面。我们的研究证明,完全可以在这种形态下构建一套系统,并通过运行视觉语言模型获取丰富的智能信息。"

该研究成果已在巴塞罗那举行的ACM人机交互大会上正式发布。

多模态耳机的设计思路

Gollakota及其同事并不认为VueBuds会是视觉AI的唯一交互形式。

"可穿戴设备是非常私人化的选择,"Gollakota实验室的博士生Maruchi Kim说道。有人偏爱眼镜或手表,有人钟情戒指,因此她认为不会出现一款"通吃"所有用户的单一设备。"我们只是希望引入一个新的品类,证明智能眼镜所能实现的一切,耳机同样可以做到。"

尽管如此,耳机这一形态仍具备一定优势。由于耳机已被广泛使用,用户的技术接受门槛更低。Kim还指出:"耳机放回收纳盒,这本身已经是一种约定俗成的社会行为。"智能眼镜可能配有度数镜片,佩戴者往往全天不摘;但"如果你想确认摄像头没有在录制,耳机这种形态让你随时可以把它收起来,让人更加放心。"

Kim还表示,用户感兴趣的许多AI功能本质上属于"情景式使用场景"——例如翻译路牌或查看食品成分时,根本不需要持续的视频流。

三大核心技术挑战

Gollakota指出,要实现具备视觉能力的耳机,需要突破三大核心难题:在严格的尺寸、功耗和重量限制内集成摄像头;实现数据传输;以及在耳戴状态下重建完整的视觉场景。

功耗是首要瓶颈。"耳机电池的容量大约只有智能眼镜的十分之一,"Kim说。视觉数据对带宽的需求也远高于音频,因此眼镜录制的视频通常通过Wi-Fi传输至云端,由云侧AI模型进行处理。Wi-Fi虽然带宽充裕,但功耗较高。

VueBuds选择通过蓝牙传输低分辨率灰度图像。大多数设备厂商倾向于传输尽可能多的数据,而Gollakota团队则另辟蹊径——他们希望找到视觉语言模型提取有效信息所需的最低分辨率,最终采用了324×324像素的图像传感器。

在视野覆盖方面,研究人员同样面临挑战。将摄像头安置于耳部会导致面部两侧各形成一个盲区。研究团队将摄像头向外偏转5至10度,再通过图像拼接技术,成功重建出视野更宽的完整场景。不过,这一方案在用户正前方约20厘米以内的区域仍存在小范围盲区。

识别准确率与未来规划

研究团队使用四种视觉语言模型对VueBuds进行了测试。在表现最佳的模型Qwen2.5-VL上,VueBuds在用户研究中的物体识别准确率约为82%,字符识别准确率为94%,翻译准确率为84%,综合准确率达87%。在17项任务上,VueBuds的表现与Ray-Ban Meta眼镜相当。

未来,研究团队计划为系统加入彩色图像支持。Kim也在研究如何通过引入设备端JPEG编码器来提升可传输的图像分辨率,从而大幅压缩待处理图像的文件体积。

隐私问题的再审视

许多用户对智能眼镜的隐私和监控问题保持警惕,而相关公司可能存在数据滥用的新证据,正在加剧这种担忧。

在此背景下,是否应该在耳机这一可穿戴设备上再加入摄像头?华盛顿大学的研究人员认为,与现有智能眼镜相比,VueBuds经过精简的图像采集方式在隐私保护方面更具优势。

首先,该系统设计为在智能手机或其他本地设备上运行,数据不会上传至云端。其次,VueBuds仅采集静态图像——Meta智能眼镜的主要用途之一已是视频录制,而Gollakota表示,"低分辨率的灰度视频本来就没有人愿意看。"

此外,VueBuds通过语音指令激活。"音频启动意味着你周围的所有人都能知道你在做什么。"而智能眼镜只需轻触按钮即可开始录制。

Gollakota还指出,大多数人已经习惯了几乎每台设备都内置麦克风的现实,因为语音指令等功能带来了切实价值,苹果等公司也在内置麦克风的设备上积累了一定程度的用户信任。视觉智能能否走出类似的发展路径,还有待技术演进和用户信任度的共同检验。

值得关注的是,苹果据报道也正在研发新一代集成红外摄像头的AirPods,以支持手势识别并改善空间音频体验。尽管这与普通摄像头所实现的视觉智能能力不同,但这一动向表明,业界对于打破耳机纯音频交互局限的兴趣正在升温。

"耳机是我们目前最成功的可穿戴设备,但它现在仍局限于音频交互界面,"Gollakota说,"引入视觉智能,将使其成为比现在更加丰富、更加强大的交互平台。"

Q&A

Q1:VueBuds耳机和普通智能眼镜相比,有哪些实际优势?

A:VueBuds最大的优势在于隐私保护和使用习惯。它通过语音指令激活拍摄,周围人都能感知;数据只在本地处理,不上传云端;不用时放回收纳盒即可确认摄像头停止工作。相比之下,智能眼镜可一键开始录制,数据处理方式也更不透明。此外,耳机的普及率远高于智能眼镜,用户接受门槛更低。

Q2:VueBuds的图像识别准确率怎么样,能实际使用吗?

A:在表现最好的视觉语言模型Qwen2.5-VL的支持下,VueBuds的综合准确率达到87%,其中字符识别高达94%,翻译准确率84%,物体识别约82%。在17项测试任务中,其表现与Ray-Ban Meta智能眼镜相当,说明该系统已具备一定的实用价值,但目前仍处于原型研究阶段,尚未商业化。

Q3:VueBuds是如何解决耳机电池续航不足的问题的?

A:耳机电池容量约为智能眼镜的十分之一,功耗控制是核心难题。VueBuds的解决方案是放弃Wi-Fi,改用更省电的蓝牙传输;同时只传输324×324像素的低分辨率灰度静态图像,而非连续视频流,从而在保证AI可用性的前提下,将功耗和带宽需求降到最低。

来源:IEEE Spectrum - Consumer Electronics

0赞

好文章,需要你的鼓励

2026

06/29

18:35

分享

点赞

邮件订阅