新加坡国立大学(NUS)的研究人员开发了一款名为AiSee的可穿戴辅助设备,该设备利用Meta的Llama大语言模型帮助视障人士"看见"周围的世界。
这款头戴式设备外形类似耳机,配备了摄像头,作为人工智能伙伴帮助用户处理视觉信息,融入他们的日常生活,甚至帮助他们重返职场。
AiSee最初在2018年被设计为戴在手指上的智能戒指,后来演变为开放式耳机形态。领导研究团队的新加坡国立大学信息系统与分析学系教授Suranga Nanayakkara表示,选择这种设计而非眼镜等其他方案,是为了避免潜在的社会歧视,更重要的是保持用户耳朵畅通,通过声音保留他们天然的空间感知能力。
基于用户反馈,该设计得到进一步改进,解决了头发遮挡摄像头和电池续航不足等问题。最新版本还具备标准耳机功能,可播放音乐和接听电话,AI功能可按需使用。
Nanayakkara表示,这种双重功能设计增强了AiSee的实用性和用户吸引力。"开发一个每天只用一次或每周用几次的产品没有意义,我们更多地将其打造为智能耳机。"
AiSee的重大突破是集成了大语言模型,将设备从简单的物体识别器转变为对话式助手。这使用户不仅能识别物体,还能就此提出后续问题。
该设备运行智能体AI框架,计算机视觉和推理模型与Llama模型协同工作,理解用户意图并执行任务。为了在基于Android的设备上高效运行Llama,团队使用量化技术将模型规模缩减至10亿到30亿参数。
AiSee首席技术官Hussel Suriyaarachchi表示,智能体框架具有足够灵活性,可以整合更新的Llama版本。"如果它能与Llama 3.2兼容,我们可以轻松地用更新版本替换模型,因为Llama的底层架构是相似的。"
选择使用Llama的决定源于公司视障员工的反馈,特别是离线处理敏感文档的需求。Nanayakkara解释道:"如果你是盲人,收到新的劳动合同,你希望理解合同内容并提出问题,但你不希望将其扫描并上传到云端。这就是我们选择使用Llama,特别是可以在设备上运行的小型模型的原因。"
AiSee获得了新加坡国立大学研究生研究创新计划的支持,并获得了影响力投资者的资金。该公司赢得了2024年Meta Llama影响创新奖,目前正与博物馆和机场运营商等组织洽谈,使其空间更具包容性,并计划很快推出消费者版本。公司还与东南亚超级应用Grab合作,创建基于语音的叫车系统。
目前,AiSee尚未开发超出Llama可用范围的本地语言支持,不过最近收到了阿联酋一家基金会关于本地化选项的请求。
Nanayakkara展望AiSee的未来将超越辅助技术,成为每个人都能使用的视觉智能工具。"我们预见这不仅仅是盲人设备,"他引用了"路缘坡道效应",即为残障人士设计的功能往往在消除限制后会惠及普通大众。"AiSee的商业成功不会局限于辅助技术,而是作为一种无需手动操作和屏幕的轻松计算方式。"
Q&A
Q1:AiSee是什么?它有什么功能?
A:AiSee是新加坡国立大学开发的智能头戴设备,外形类似耳机,配备摄像头和AI功能。它利用Meta的Llama大语言模型帮助视障人士"看见"周围世界,不仅能识别物体,还能进行对话式交流,同时具备播放音乐和接听电话等标准耳机功能。
Q2:AiSee为什么选择头戴式设计而不是眼镜?
A:研究团队选择开放式耳机形态而非眼镜等方案,主要是为了避免潜在的社会歧视,更重要的是保持用户耳朵畅通,通过声音保留他们天然的空间感知能力,这对视障人士来说至关重要。
Q3:AiSee使用哪种AI技术?有什么特殊优势?
A:AiSee使用Meta的Llama大语言模型,采用智能体AI框架,计算机视觉和推理模型协同工作。其特殊优势是支持离线处理,用户可以在设备上直接处理敏感文档而无需上传云端,保护隐私安全。
好文章,需要你的鼓励
牛津大学提出PHYSIFORMER,一种扩散变换器模型,通过三维网格顶点轨迹直接在世界坐标空间预测刚性与弹性物体的物理运动,一次性生成全序列轨迹,超越自回归基线。
随着医疗数据数字化与互操作性的进步,跨机构纵向患者数据的研究应用成为可能。本研究通过对20位领域专家的访谈,识别出8种数据收集方法,涵盖智能手机应用、结构化数据导出、区域/全国研究查询及聚合数据源等。研究发现,各方法均有其优缺点,无单一最优方案。参与者中介交换方式可绕过复杂治理安排,但存在数据缺口;全国性网络尚不支持研究查询。公共政策的持续推进将对该领域发展起关键作用。
研究发现主流奖励模型对同等质量答案给出差异悬殊的分数,并提出"奖励聚类"算法通过蒙特卡洛随机失活将连续分数离散化,在不重训模型的前提下有效减少AI训练中的奖励作弊现象。