新加坡国立大学(NUS)的研究人员开发了一款名为AiSee的可穿戴辅助设备,该设备利用Meta的Llama大语言模型帮助视障人士"看见"周围的世界。
这款头戴式设备外形类似耳机,配备了摄像头,作为人工智能伙伴帮助用户处理视觉信息,融入他们的日常生活,甚至帮助他们重返职场。
AiSee最初在2018年被设计为戴在手指上的智能戒指,后来演变为开放式耳机形态。领导研究团队的新加坡国立大学信息系统与分析学系教授Suranga Nanayakkara表示,选择这种设计而非眼镜等其他方案,是为了避免潜在的社会歧视,更重要的是保持用户耳朵畅通,通过声音保留他们天然的空间感知能力。
基于用户反馈,该设计得到进一步改进,解决了头发遮挡摄像头和电池续航不足等问题。最新版本还具备标准耳机功能,可播放音乐和接听电话,AI功能可按需使用。
Nanayakkara表示,这种双重功能设计增强了AiSee的实用性和用户吸引力。"开发一个每天只用一次或每周用几次的产品没有意义,我们更多地将其打造为智能耳机。"
AiSee的重大突破是集成了大语言模型,将设备从简单的物体识别器转变为对话式助手。这使用户不仅能识别物体,还能就此提出后续问题。
该设备运行智能体AI框架,计算机视觉和推理模型与Llama模型协同工作,理解用户意图并执行任务。为了在基于Android的设备上高效运行Llama,团队使用量化技术将模型规模缩减至10亿到30亿参数。
AiSee首席技术官Hussel Suriyaarachchi表示,智能体框架具有足够灵活性,可以整合更新的Llama版本。"如果它能与Llama 3.2兼容,我们可以轻松地用更新版本替换模型,因为Llama的底层架构是相似的。"
选择使用Llama的决定源于公司视障员工的反馈,特别是离线处理敏感文档的需求。Nanayakkara解释道:"如果你是盲人,收到新的劳动合同,你希望理解合同内容并提出问题,但你不希望将其扫描并上传到云端。这就是我们选择使用Llama,特别是可以在设备上运行的小型模型的原因。"
AiSee获得了新加坡国立大学研究生研究创新计划的支持,并获得了影响力投资者的资金。该公司赢得了2024年Meta Llama影响创新奖,目前正与博物馆和机场运营商等组织洽谈,使其空间更具包容性,并计划很快推出消费者版本。公司还与东南亚超级应用Grab合作,创建基于语音的叫车系统。
目前,AiSee尚未开发超出Llama可用范围的本地语言支持,不过最近收到了阿联酋一家基金会关于本地化选项的请求。
Nanayakkara展望AiSee的未来将超越辅助技术,成为每个人都能使用的视觉智能工具。"我们预见这不仅仅是盲人设备,"他引用了"路缘坡道效应",即为残障人士设计的功能往往在消除限制后会惠及普通大众。"AiSee的商业成功不会局限于辅助技术,而是作为一种无需手动操作和屏幕的轻松计算方式。"
Q&A
Q1:AiSee是什么?它有什么功能?
A:AiSee是新加坡国立大学开发的智能头戴设备,外形类似耳机,配备摄像头和AI功能。它利用Meta的Llama大语言模型帮助视障人士"看见"周围世界,不仅能识别物体,还能进行对话式交流,同时具备播放音乐和接听电话等标准耳机功能。
Q2:AiSee为什么选择头戴式设计而不是眼镜?
A:研究团队选择开放式耳机形态而非眼镜等方案,主要是为了避免潜在的社会歧视,更重要的是保持用户耳朵畅通,通过声音保留他们天然的空间感知能力,这对视障人士来说至关重要。
Q3:AiSee使用哪种AI技术?有什么特殊优势?
A:AiSee使用Meta的Llama大语言模型,采用智能体AI框架,计算机视觉和推理模型协同工作。其特殊优势是支持离线处理,用户可以在设备上直接处理敏感文档而无需上传云端,保护隐私安全。
好文章,需要你的鼓励
英特尔携手戴尔以及零克云,通过打造“工作站-AI PC-云端”的协同生态,大幅缩短AI部署流程,助力企业快速实现从想法验证到规模化落地。
意大利ISTI研究院推出Patch-ioner零样本图像描述框架,突破传统局限实现任意区域精确描述。系统将图像拆分为小块,通过智能组合生成从单块到整图的统一描述,无需区域标注数据。创新引入轨迹描述任务,用户可用鼠标画线获得对应区域描述。在四大评测任务中全面超越现有方法,为人机交互开辟新模式。
阿联酋阿布扎比人工智能大学发布全新PAN世界模型,超越传统大语言模型局限。该模型具备通用性、交互性和长期一致性,能深度理解几何和物理规律,通过"物理推理"学习真实世界材料行为。PAN采用生成潜在预测架构,可模拟数千个因果一致步骤,支持分支操作模拟多种可能未来。预计12月初公开发布,有望为机器人、自动驾驶等领域提供低成本合成数据生成。
MIT研究团队发现,AI系统无需严格配对的多模态数据也能显著提升性能。他们开发的UML框架通过参数共享让AI从图像、文本、音频等不同类型数据中学习,即使这些数据间没有直接对应关系。实验显示这种方法在图像分类、音频识别等任务上都超越了单模态系统,并能自发发展出跨模态理解能力,为未来AI应用开辟了新路径。