搭载摄像头的耳机：VueBuds能否取代智能眼镜？

华盛顿大学研究人员开发了一款名为VueBuds的原型耳机，在每只耳塞内嵌入低分辨率摄像头，通过蓝牙将灰度图像传输至手机端视觉语言模型处理。其功能与Ray-Ban Meta智能眼镜相当，可实现翻译标识、辅助低视力用户、识别植物等。测试中综合准确率达87%。相较智能眼镜，该方案更节能、更便于收纳，数据仅在本地处理，隐私保护更优。

智能手机摄像头和部分智能眼镜已经能够让用户向AI模型发起查询，获取眼前所见事物的相关信息。未来，这一能力或许将延伸至更多设备，包括无线耳机。

华盛顿大学的研究人员开发了一款名为VueBuds的耳机原型，每只耳机内均集成了一枚小型低分辨率摄像头。这款原型耳机具备与智能眼镜类似的功能——例如Ray-Ban Meta眼镜所支持的翻译外语路牌、辅助低视力用户、或在户外徒步时识别植物种类等。

智能眼镜自身存在诸多局限，隐私问题和佩戴舒适性是其中的主要痛点。内置摄像头因可能在用户不知情的情况下拍摄旁观者，以及所采集的敏感视觉数据最终流向何处等问题，已引发批评和法律诉讼。

此外，并非所有人都习惯佩戴眼镜，甚至有人选择隐形眼镜来规避这一麻烦——主导VueBuds研究的华盛顿大学教授Shyam Gollakota本人便是如此。他表示："几乎人人都会佩戴的主流可穿戴设备，就是耳机。"他的团队将耳机定位为智能眼镜的替代方案，认为其侵入性更低、对隐私更为友好。

不过，这项研究的首要目标是验证这种小巧的耳戴式形态是否具备可行性。Gollakota表示："传统耳机一直局限于音频交互界面。我们的研究证明，完全可以在这种形态下构建一套系统，并通过运行视觉语言模型获取丰富的智能信息。"

该研究成果已在巴塞罗那举行的ACM人机交互大会上正式发布。

多模态耳机的设计思路

Gollakota及其同事并不认为VueBuds会是视觉AI的唯一交互形式。

"可穿戴设备是非常私人化的选择，"Gollakota实验室的博士生Maruchi Kim说道。有人偏爱眼镜或手表，有人钟情戒指，因此她认为不会出现一款"通吃"所有用户的单一设备。"我们只是希望引入一个新的品类，证明智能眼镜所能实现的一切，耳机同样可以做到。"

尽管如此，耳机这一形态仍具备一定优势。由于耳机已被广泛使用，用户的技术接受门槛更低。Kim还指出："耳机放回收纳盒，这本身已经是一种约定俗成的社会行为。"智能眼镜可能配有度数镜片，佩戴者往往全天不摘；但"如果你想确认摄像头没有在录制，耳机这种形态让你随时可以把它收起来，让人更加放心。"

Kim还表示，用户感兴趣的许多AI功能本质上属于"情景式使用场景"——例如翻译路牌或查看食品成分时，根本不需要持续的视频流。

三大核心技术挑战

Gollakota指出，要实现具备视觉能力的耳机，需要突破三大核心难题：在严格的尺寸、功耗和重量限制内集成摄像头；实现数据传输；以及在耳戴状态下重建完整的视觉场景。

功耗是首要瓶颈。"耳机电池的容量大约只有智能眼镜的十分之一，"Kim说。视觉数据对带宽的需求也远高于音频，因此眼镜录制的视频通常通过Wi-Fi传输至云端，由云侧AI模型进行处理。Wi-Fi虽然带宽充裕，但功耗较高。

VueBuds选择通过蓝牙传输低分辨率灰度图像。大多数设备厂商倾向于传输尽可能多的数据，而Gollakota团队则另辟蹊径——他们希望找到视觉语言模型提取有效信息所需的最低分辨率，最终采用了324×324像素的图像传感器。

在视野覆盖方面，研究人员同样面临挑战。将摄像头安置于耳部会导致面部两侧各形成一个盲区。研究团队将摄像头向外偏转5至10度，再通过图像拼接技术，成功重建出视野更宽的完整场景。不过，这一方案在用户正前方约20厘米以内的区域仍存在小范围盲区。

识别准确率与未来规划

研究团队使用四种视觉语言模型对VueBuds进行了测试。在表现最佳的模型Qwen2.5-VL上，VueBuds在用户研究中的物体识别准确率约为82%，字符识别准确率为94%，翻译准确率为84%，综合准确率达87%。在17项任务上，VueBuds的表现与Ray-Ban Meta眼镜相当。

未来，研究团队计划为系统加入彩色图像支持。Kim也在研究如何通过引入设备端JPEG编码器来提升可传输的图像分辨率，从而大幅压缩待处理图像的文件体积。

隐私问题的再审视

许多用户对智能眼镜的隐私和监控问题保持警惕，而相关公司可能存在数据滥用的新证据，正在加剧这种担忧。

在此背景下，是否应该在耳机这一可穿戴设备上再加入摄像头？华盛顿大学的研究人员认为，与现有智能眼镜相比，VueBuds经过精简的图像采集方式在隐私保护方面更具优势。

首先，该系统设计为在智能手机或其他本地设备上运行，数据不会上传至云端。其次，VueBuds仅采集静态图像——Meta智能眼镜的主要用途之一已是视频录制，而Gollakota表示，"低分辨率的灰度视频本来就没有人愿意看。"

此外，VueBuds通过语音指令激活。"音频启动意味着你周围的所有人都能知道你在做什么。"而智能眼镜只需轻触按钮即可开始录制。

Gollakota还指出，大多数人已经习惯了几乎每台设备都内置麦克风的现实，因为语音指令等功能带来了切实价值，苹果等公司也在内置麦克风的设备上积累了一定程度的用户信任。视觉智能能否走出类似的发展路径，还有待技术演进和用户信任度的共同检验。

值得关注的是，苹果据报道也正在研发新一代集成红外摄像头的AirPods，以支持手势识别并改善空间音频体验。尽管这与普通摄像头所实现的视觉智能能力不同，但这一动向表明，业界对于打破耳机纯音频交互局限的兴趣正在升温。

"耳机是我们目前最成功的可穿戴设备，但它现在仍局限于音频交互界面，"Gollakota说，"引入视觉智能，将使其成为比现在更加丰富、更加强大的交互平台。"

Q&A

Q1：VueBuds耳机和普通智能眼镜相比，有哪些实际优势？

A：VueBuds最大的优势在于隐私保护和使用习惯。它通过语音指令激活拍摄，周围人都能感知；数据只在本地处理，不上传云端；不用时放回收纳盒即可确认摄像头停止工作。相比之下，智能眼镜可一键开始录制，数据处理方式也更不透明。此外，耳机的普及率远高于智能眼镜，用户接受门槛更低。

Q2：VueBuds的图像识别准确率怎么样，能实际使用吗？

A：在表现最好的视觉语言模型Qwen2.5-VL的支持下，VueBuds的综合准确率达到87%，其中字符识别高达94%，翻译准确率84%，物体识别约82%。在17项测试任务中，其表现与Ray-Ban Meta智能眼镜相当，说明该系统已具备一定的实用价值，但目前仍处于原型研究阶段，尚未商业化。

Q3：VueBuds是如何解决耳机电池续航不足的问题的？

A：耳机电池容量约为智能眼镜的十分之一，功耗控制是核心难题。VueBuds的解决方案是放弃Wi-Fi，改用更省电的蓝牙传输；同时只传输324×324像素的低分辨率灰度静态图像，而非连续视频流，从而在保证AI可用性的前提下，将功耗和带宽需求降到最低。

来源：IEEE Spectrum - Consumer Electronics

0赞

好文章，需要你的鼓励

搭载摄像头的耳机：VueBuds能否取代智能眼镜？

来源：IEEE Spectrum - Consumer Electronics

2026

06/29

18:35

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

Nvidia RTX Spark芯片登陆Windows PC，能否改变PC市场格局？

建造全球最大数据中心需要克服哪些挑战？

微型石英传感器如何拯救了无数生命

超声波如何变得超小型化：MEMS技术让一个探头加一部手机搞定一切

喷墨技术的跨界革命：从印刷到DNA阵列与3D打印

调整GPU时钟频率可将大语言模型训练能耗降低14%

轨道数据中心为何比硅谷想象的更难实现

Tensordyne宣称新AI芯片性能大幅超越英伟达

撒丁岛的历史阴影：为何当地人抗拒清洁能源转型

福特重新雇用资深工程师，因AI未能达到质量标准

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会