新加坡国立大学(NUS)的研究人员开发了一款名为AiSee的可穿戴辅助设备,该设备利用Meta的Llama大语言模型帮助视障人士"看见"周围的世界。
这款头戴式设备外形类似耳机,配备了摄像头,作为人工智能伙伴帮助用户处理视觉信息,融入他们的日常生活,甚至帮助他们重返职场。
AiSee最初在2018年被设计为戴在手指上的智能戒指,后来演变为开放式耳机形态。领导研究团队的新加坡国立大学信息系统与分析学系教授Suranga Nanayakkara表示,选择这种设计而非眼镜等其他方案,是为了避免潜在的社会歧视,更重要的是保持用户耳朵畅通,通过声音保留他们天然的空间感知能力。
基于用户反馈,该设计得到进一步改进,解决了头发遮挡摄像头和电池续航不足等问题。最新版本还具备标准耳机功能,可播放音乐和接听电话,AI功能可按需使用。
Nanayakkara表示,这种双重功能设计增强了AiSee的实用性和用户吸引力。"开发一个每天只用一次或每周用几次的产品没有意义,我们更多地将其打造为智能耳机。"
AiSee的重大突破是集成了大语言模型,将设备从简单的物体识别器转变为对话式助手。这使用户不仅能识别物体,还能就此提出后续问题。
该设备运行智能体AI框架,计算机视觉和推理模型与Llama模型协同工作,理解用户意图并执行任务。为了在基于Android的设备上高效运行Llama,团队使用量化技术将模型规模缩减至10亿到30亿参数。
AiSee首席技术官Hussel Suriyaarachchi表示,智能体框架具有足够灵活性,可以整合更新的Llama版本。"如果它能与Llama 3.2兼容,我们可以轻松地用更新版本替换模型,因为Llama的底层架构是相似的。"
选择使用Llama的决定源于公司视障员工的反馈,特别是离线处理敏感文档的需求。Nanayakkara解释道:"如果你是盲人,收到新的劳动合同,你希望理解合同内容并提出问题,但你不希望将其扫描并上传到云端。这就是我们选择使用Llama,特别是可以在设备上运行的小型模型的原因。"
AiSee获得了新加坡国立大学研究生研究创新计划的支持,并获得了影响力投资者的资金。该公司赢得了2024年Meta Llama影响创新奖,目前正与博物馆和机场运营商等组织洽谈,使其空间更具包容性,并计划很快推出消费者版本。公司还与东南亚超级应用Grab合作,创建基于语音的叫车系统。
目前,AiSee尚未开发超出Llama可用范围的本地语言支持,不过最近收到了阿联酋一家基金会关于本地化选项的请求。
Nanayakkara展望AiSee的未来将超越辅助技术,成为每个人都能使用的视觉智能工具。"我们预见这不仅仅是盲人设备,"他引用了"路缘坡道效应",即为残障人士设计的功能往往在消除限制后会惠及普通大众。"AiSee的商业成功不会局限于辅助技术,而是作为一种无需手动操作和屏幕的轻松计算方式。"
Q&A
Q1:AiSee是什么?它有什么功能?
A:AiSee是新加坡国立大学开发的智能头戴设备,外形类似耳机,配备摄像头和AI功能。它利用Meta的Llama大语言模型帮助视障人士"看见"周围世界,不仅能识别物体,还能进行对话式交流,同时具备播放音乐和接听电话等标准耳机功能。
Q2:AiSee为什么选择头戴式设计而不是眼镜?
A:研究团队选择开放式耳机形态而非眼镜等方案,主要是为了避免潜在的社会歧视,更重要的是保持用户耳朵畅通,通过声音保留他们天然的空间感知能力,这对视障人士来说至关重要。
Q3:AiSee使用哪种AI技术?有什么特殊优势?
A:AiSee使用Meta的Llama大语言模型,采用智能体AI框架,计算机视觉和推理模型协同工作。其特殊优势是支持离线处理,用户可以在设备上直接处理敏感文档而无需上传云端,保护隐私安全。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。