Google 已开始向 Gemini Live 推出新的 AI 功能,让它能够"看到"你的屏幕或通过智能手机摄像头进行实时问答,Google 发言人 Alex Joseph 在发给 The Verge 的邮件中确认了这一消息。这些功能的推出距离 Google 首次展示支持这些功能的"Project Astra"项目已近一年。
据 9to5Google 报道,一位 Reddit 用户表示该功能出现在他们的小米手机上。今天,这位用户发布了一段视频,展示了 Gemini 新的屏幕阅读能力。这是 Google 在三月初宣布的两项功能之一,当时表示这些功能"将作为 Google One AI Premium 计划的一部分,在本月晚些时候向 Gemini Advanced 订阅用户开放"。
目前正在推出的另一项 Astra 功能是实时视频,它允许 Gemini 实时解读智能手机摄像头的画面并回答相关问题。在 Google 本月发布的演示视频中,一个人使用该功能请求 Gemini 帮助决定为新上釉的陶器选择什么颜色的涂料。
Google 推出这些功能的时机恰逢其在 AI 助手领域保持领先优势之际,此时 Amazon 正准备有限度地推出 Alexa Plus 升级版的早期访问,而 Apple 则推迟了其升级版 Siri 的发布。这两款产品都应该具有类似于 Astra 现在开始启用的功能。与此同时,虽然 Samsung 仍然拥有 Bixby,但 Gemini 依然是其手机上的默认助手。
好文章,需要你的鼓励
美国连锁超市巨头Albertsons正在基于Databricks构建商品智能平台,整合产品、定价、促销与陈列等决策功能,目标是在2026年底前全面向门店运营商落地。该平台以Databricks Lakehouse存储零售数据,通过Unity Catalog与AI Gateway实现数据治理,并借助AI智能体Genie支持自然语言查询,帮助商家洞察销售趋势,提升决策效率。此举是Albertsons今年四项AI核心战略投资之一。
阿里Qwen团队通过引入强化学习和在线策略蒸馏,将Qwen-Image-2.0升级为Qwen-Image-2.0-RL,让图像生成模型真正学会人类审美,文生图Elo评分提升78分,图像编辑提升93分。
微软正将Windows 11打造成真正的AI操作系统。在Build大会上,微软展示了AI模型与智能代理如何深度融合进Windows 11,让用户通过自然语言完成系统操作。借助Windows ML框架,超过5亿台PC已可在本地离线运行AI任务,无需联网、无token费用、数据不离设备。Office、Photos、Teams等应用已支持本地AI能力,Adobe、WhatsApp、Canva等第三方也在积极跟进,企业级AI PC采购需求有望加速。
港科大与快手联合提出NormGuard,针对流匹配模型强化学习训练中速度范数膨胀问题,通过训练时单向惩罚约束,在保留奖励的同时改善图像真实感。