新加坡国立大学(NUS)的研究人员开发了一款名为AiSee的可穿戴辅助设备,该设备利用Meta的Llama大语言模型帮助视障人士"看见"周围的世界。
这款头戴式设备外形类似耳机,配备了摄像头,作为人工智能伙伴帮助用户处理视觉信息,融入他们的日常生活,甚至帮助他们重返职场。
AiSee最初在2018年被设计为戴在手指上的智能戒指,后来演变为开放式耳机形态。领导研究团队的新加坡国立大学信息系统与分析学系教授Suranga Nanayakkara表示,选择这种设计而非眼镜等其他方案,是为了避免潜在的社会歧视,更重要的是保持用户耳朵畅通,通过声音保留他们天然的空间感知能力。
基于用户反馈,该设计得到进一步改进,解决了头发遮挡摄像头和电池续航不足等问题。最新版本还具备标准耳机功能,可播放音乐和接听电话,AI功能可按需使用。
Nanayakkara表示,这种双重功能设计增强了AiSee的实用性和用户吸引力。"开发一个每天只用一次或每周用几次的产品没有意义,我们更多地将其打造为智能耳机。"
AiSee的重大突破是集成了大语言模型,将设备从简单的物体识别器转变为对话式助手。这使用户不仅能识别物体,还能就此提出后续问题。
该设备运行智能体AI框架,计算机视觉和推理模型与Llama模型协同工作,理解用户意图并执行任务。为了在基于Android的设备上高效运行Llama,团队使用量化技术将模型规模缩减至10亿到30亿参数。
AiSee首席技术官Hussel Suriyaarachchi表示,智能体框架具有足够灵活性,可以整合更新的Llama版本。"如果它能与Llama 3.2兼容,我们可以轻松地用更新版本替换模型,因为Llama的底层架构是相似的。"
选择使用Llama的决定源于公司视障员工的反馈,特别是离线处理敏感文档的需求。Nanayakkara解释道:"如果你是盲人,收到新的劳动合同,你希望理解合同内容并提出问题,但你不希望将其扫描并上传到云端。这就是我们选择使用Llama,特别是可以在设备上运行的小型模型的原因。"
AiSee获得了新加坡国立大学研究生研究创新计划的支持,并获得了影响力投资者的资金。该公司赢得了2024年Meta Llama影响创新奖,目前正与博物馆和机场运营商等组织洽谈,使其空间更具包容性,并计划很快推出消费者版本。公司还与东南亚超级应用Grab合作,创建基于语音的叫车系统。
目前,AiSee尚未开发超出Llama可用范围的本地语言支持,不过最近收到了阿联酋一家基金会关于本地化选项的请求。
Nanayakkara展望AiSee的未来将超越辅助技术,成为每个人都能使用的视觉智能工具。"我们预见这不仅仅是盲人设备,"他引用了"路缘坡道效应",即为残障人士设计的功能往往在消除限制后会惠及普通大众。"AiSee的商业成功不会局限于辅助技术,而是作为一种无需手动操作和屏幕的轻松计算方式。"
Q&A
Q1:AiSee是什么?它有什么功能?
A:AiSee是新加坡国立大学开发的智能头戴设备,外形类似耳机,配备摄像头和AI功能。它利用Meta的Llama大语言模型帮助视障人士"看见"周围世界,不仅能识别物体,还能进行对话式交流,同时具备播放音乐和接听电话等标准耳机功能。
Q2:AiSee为什么选择头戴式设计而不是眼镜?
A:研究团队选择开放式耳机形态而非眼镜等方案,主要是为了避免潜在的社会歧视,更重要的是保持用户耳朵畅通,通过声音保留他们天然的空间感知能力,这对视障人士来说至关重要。
Q3:AiSee使用哪种AI技术?有什么特殊优势?
A:AiSee使用Meta的Llama大语言模型,采用智能体AI框架,计算机视觉和推理模型协同工作。其特殊优势是支持离线处理,用户可以在设备上直接处理敏感文档而无需上传云端,保护隐私安全。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。