Google LLC 正在更新 Google 搜索中的新"AI 模式"功能,引入多模态能力,使其能够"看到"用户上传的图片,从而更好地回答用户的问题。
AI 模式上个月在 Google One AI Premium 订阅用户中进行了有限预览。这是 Google 搜索中的一项实验性功能,它使用生成式人工智能,允许用户提出复杂的多部分问题和后续查询,以深入探索特定主题。
通过今天的更新,那些能够访问 AI 模式的用户现在可以上传图片并询问关于它所看到内容的问题,Google 在今天的博客文章中透露了这一信息。此外,AI 模式功能正在向数百万已加入其 Labs 计划以获取新应用程序早期访问权限的新用户推出。
Google 表示,AI 模式的图像分析功能由 Google Lens 中的多模态搜索能力提供支持。Google Lens 是一款智能手机应用程序,允许用户使用相机拍照并在 Google 搜索中搜索这些照片。
据 Google 介绍,AI 模式将能够理解任何上传图像中的整个场景,包括其中不同物体之间的关系。它还能够确定这些物体的材料、形状、颜色及其排列方式。它将就图像和其中的物体提出多个问题,从而能够提供比传统 Google 搜索更详细的回答。
举例来说,Google 表示,用户可以拍摄自己书架的照片,并输入查询"如果我喜欢这些书,有哪些类似的书可能适合我?" AI 模式将扫描图像以识别每本书,然后在研究这些书籍后推荐一系列其他书籍。
此外,用户可以提出后续问题。例如,用户可能强调"我在寻找一本快速阅读的书,这些推荐中哪一本最短?"
Google 搜索产品副总裁 Robby Stein 强调,"AI 模式建立在多年视觉搜索领域的工作基础上,并将其更进一步。"
鉴于 AI 模式仍是一项实验性功能,目前尚不清楚该服务的受欢迎程度如何。Google 上个月推出它是为了响应流行的生成式 AI 搜索应用程序,如 Perplexity 和 OpenAI 的 ChatGPT Search,这些应用程序提供类似的功能。
Google 表示,在更广泛发布之前,将继续完善用户体验并扩展 AI 模式的功能。
好文章,需要你的鼓励
谷歌DeepMind发布AlphaEarth Foundations AI模型,能处理每日数TB卫星数据追踪地表变化。该模型如"虚拟卫星"般将全球陆地和沿海水域映射为数字表示,帮助科学家监测食品安全、森林砍伐、城市扩张等关键问题。模型整合光学卫星图像、雷达、激光测绘等数据源,以10×10米精度追踪变化,错误率比其他模型低24%。
阿联酋穆罕默德·本·扎耶德人工智能大学研究团队开发出轻量级语音合成系统LLMVoX,仅用3000万参数就能让任何大语言模型获得流式语音输出能力。该系统实现475毫秒超低延迟,词错误率仅3.7%,支持多语言扩展,可与视觉语言模型集成,为AI语音交互提供了"即插即用"的革命性解决方案。
ChatGPT虽然是目前最受欢迎的AI聊天机器人,但它并非万能。文章指出11个不应该使用ChatGPT的场景:诊断健康问题、处理心理健康、紧急安全决策、个人财务税务规划、处理机密数据、违法行为、学术作弊、监控实时信息、赌博预测、起草法律文件以及创作艺术。AI可能产生错误信息、缺乏实时数据更新,在高风险场景下可能造成严重后果。用户应了解其局限性,在关键决策时寻求专业帮助。
清华大学团队开发出革命性人形机器人系统Being-0,具备类人思维能力。该系统采用创新的"三层大脑"架构:顶层基础模型负责理解指令和制定策略,中间层连接器模块负责将计划转化为具体动作,底层技能库负责执行各种操作。机器人能够理解自然语言,自主规划复杂任务如制作咖啡,并在动态环境中灵活调整策略,在长期任务中达到84.4%的成功率。