新加坡国立大学(NUS)的研究人员开发了一款名为AiSee的可穿戴辅助设备,该设备利用Meta的Llama大语言模型帮助视障人士"看见"周围的世界。
这款头戴式设备外形类似耳机,配备了摄像头,作为人工智能伙伴帮助用户处理视觉信息,融入他们的日常生活,甚至帮助他们重返职场。
AiSee最初在2018年被设计为戴在手指上的智能戒指,后来演变为开放式耳机形态。领导研究团队的新加坡国立大学信息系统与分析学系教授Suranga Nanayakkara表示,选择这种设计而非眼镜等其他方案,是为了避免潜在的社会歧视,更重要的是保持用户耳朵畅通,通过声音保留他们天然的空间感知能力。
基于用户反馈,该设计得到进一步改进,解决了头发遮挡摄像头和电池续航不足等问题。最新版本还具备标准耳机功能,可播放音乐和接听电话,AI功能可按需使用。
Nanayakkara表示,这种双重功能设计增强了AiSee的实用性和用户吸引力。"开发一个每天只用一次或每周用几次的产品没有意义,我们更多地将其打造为智能耳机。"
AiSee的重大突破是集成了大语言模型,将设备从简单的物体识别器转变为对话式助手。这使用户不仅能识别物体,还能就此提出后续问题。
该设备运行智能体AI框架,计算机视觉和推理模型与Llama模型协同工作,理解用户意图并执行任务。为了在基于Android的设备上高效运行Llama,团队使用量化技术将模型规模缩减至10亿到30亿参数。
AiSee首席技术官Hussel Suriyaarachchi表示,智能体框架具有足够灵活性,可以整合更新的Llama版本。"如果它能与Llama 3.2兼容,我们可以轻松地用更新版本替换模型,因为Llama的底层架构是相似的。"
选择使用Llama的决定源于公司视障员工的反馈,特别是离线处理敏感文档的需求。Nanayakkara解释道:"如果你是盲人,收到新的劳动合同,你希望理解合同内容并提出问题,但你不希望将其扫描并上传到云端。这就是我们选择使用Llama,特别是可以在设备上运行的小型模型的原因。"
AiSee获得了新加坡国立大学研究生研究创新计划的支持,并获得了影响力投资者的资金。该公司赢得了2024年Meta Llama影响创新奖,目前正与博物馆和机场运营商等组织洽谈,使其空间更具包容性,并计划很快推出消费者版本。公司还与东南亚超级应用Grab合作,创建基于语音的叫车系统。
目前,AiSee尚未开发超出Llama可用范围的本地语言支持,不过最近收到了阿联酋一家基金会关于本地化选项的请求。
Nanayakkara展望AiSee的未来将超越辅助技术,成为每个人都能使用的视觉智能工具。"我们预见这不仅仅是盲人设备,"他引用了"路缘坡道效应",即为残障人士设计的功能往往在消除限制后会惠及普通大众。"AiSee的商业成功不会局限于辅助技术,而是作为一种无需手动操作和屏幕的轻松计算方式。"
Q&A
Q1:AiSee是什么?它有什么功能?
A:AiSee是新加坡国立大学开发的智能头戴设备,外形类似耳机,配备摄像头和AI功能。它利用Meta的Llama大语言模型帮助视障人士"看见"周围世界,不仅能识别物体,还能进行对话式交流,同时具备播放音乐和接听电话等标准耳机功能。
Q2:AiSee为什么选择头戴式设计而不是眼镜?
A:研究团队选择开放式耳机形态而非眼镜等方案,主要是为了避免潜在的社会歧视,更重要的是保持用户耳朵畅通,通过声音保留他们天然的空间感知能力,这对视障人士来说至关重要。
Q3:AiSee使用哪种AI技术?有什么特殊优势?
A:AiSee使用Meta的Llama大语言模型,采用智能体AI框架,计算机视觉和推理模型协同工作。其特殊优势是支持离线处理,用户可以在设备上直接处理敏感文档而无需上传云端,保护隐私安全。
好文章,需要你的鼓励
新加坡国立大学研究人员开发出名为AiSee的可穿戴辅助设备,利用Meta的Llama模型帮助视障人士"看见"周围世界。该设备采用耳机形态,配备摄像头作为AI伴侣处理视觉信息。通过集成大语言模型,设备从简单物体识别升级为对话助手,用户可进行追问。设备运行代理AI框架,使用量化技术将Llama模型压缩至10-30亿参数在安卓设备上高效运行,支持离线处理敏感文档,保护用户隐私。
阿里达摩院联合浙江大学推出VideoRefer套件,这是首个能够精确理解视频中特定物体的AI系统。该系统不仅能识别整体场景,更能针对用户指定的任何物体进行详细分析和跨时间追踪。研究团队构建了包含70万样本的高质量数据集VideoRefer-700K,并设计了全面的评估体系VideoRefer-Bench。实验显示该技术在专业视频理解任务中显著超越现有方法,在安防监控、自动驾驶、视频编辑等领域具有广阔应用前景。
OpenAI推出新AI模型GPT-5-Codex,能够在无用户协助下完成数小时的编程任务。该模型是GPT-5的改进版本,使用额外编码数据训练。测试显示,GPT-5-Codex可独立工作超过7小时,能自动发现并修复编码错误。在重构基准测试中得分51.3%,比GPT高出17%以上。模型可根据任务难度调整处理时间,简单请求处理速度显著提升。目前已在ChatGPT付费计划中提供。
Sa2VA是由UC默塞德等高校联合开发的突破性AI系统,首次实现图像视频的统一理解与精确分割。通过巧妙融合SAM-2视频分割技术和LLaVA多模态对话能力,Sa2VA能够同时进行自然对话和像素级物体标注。研究团队还构建了包含7万多个复杂视频表达式的Ref-SAV数据集,显著提升了AI在长文本描述和复杂场景下的表现。实验显示,Sa2VA在多个基准测试中达到业界领先水平,为视频编辑、医疗诊断、智能监控等领域带来新的应用可能性。