Google LLC 正在更新 Google 搜索中的新"AI 模式"功能,引入多模态能力,使其能够"看到"用户上传的图片,从而更好地回答用户的问题。
AI 模式上个月在 Google One AI Premium 订阅用户中进行了有限预览。这是 Google 搜索中的一项实验性功能,它使用生成式人工智能,允许用户提出复杂的多部分问题和后续查询,以深入探索特定主题。
通过今天的更新,那些能够访问 AI 模式的用户现在可以上传图片并询问关于它所看到内容的问题,Google 在今天的博客文章中透露了这一信息。此外,AI 模式功能正在向数百万已加入其 Labs 计划以获取新应用程序早期访问权限的新用户推出。
Google 表示,AI 模式的图像分析功能由 Google Lens 中的多模态搜索能力提供支持。Google Lens 是一款智能手机应用程序,允许用户使用相机拍照并在 Google 搜索中搜索这些照片。
据 Google 介绍,AI 模式将能够理解任何上传图像中的整个场景,包括其中不同物体之间的关系。它还能够确定这些物体的材料、形状、颜色及其排列方式。它将就图像和其中的物体提出多个问题,从而能够提供比传统 Google 搜索更详细的回答。
举例来说,Google 表示,用户可以拍摄自己书架的照片,并输入查询"如果我喜欢这些书,有哪些类似的书可能适合我?" AI 模式将扫描图像以识别每本书,然后在研究这些书籍后推荐一系列其他书籍。
此外,用户可以提出后续问题。例如,用户可能强调"我在寻找一本快速阅读的书,这些推荐中哪一本最短?"
Google 搜索产品副总裁 Robby Stein 强调,"AI 模式建立在多年视觉搜索领域的工作基础上,并将其更进一步。"
鉴于 AI 模式仍是一项实验性功能,目前尚不清楚该服务的受欢迎程度如何。Google 上个月推出它是为了响应流行的生成式 AI 搜索应用程序,如 Perplexity 和 OpenAI 的 ChatGPT Search,这些应用程序提供类似的功能。
Google 表示,在更广泛发布之前,将继续完善用户体验并扩展 AI 模式的功能。
好文章,需要你的鼓励
四川大学研究团队发现,当前先进的AI模型在面对信息不完整的数学问题时,缺乏主动询问澄清信息的能力,更倾向于基于假设给出答案。
中南大学等机构联合发布TextAtlas5M数据集,包含500万图像-文本对,专门解决AI长文本图像生成难题。该数据集平均文本长度148.82词,远超现有数据集,涵盖广告、学术、教育等真实场景。配套的TextAtlasEval基准测试显示,即使最先进的商业模型也面临显著挑战,为AI图像生成技术指明了新的发展方向。
从11岁就梦想造人形机器人的Bernt Bornich,用'huggable'形容他的Neo Gamma机器人——这个能举起150磅的66磅'运动员',正以家庭为试验场突破AI学习瓶颈:'工厂20小时就触及学习天花板,而家庭环境的多样性才是通往AGI的钥匙'。
剑桥大学研究团队创建了史上最难的AI视觉测试ZeroBench,包含100道精心设计的视觉推理题目。在这项测试中,包括GPT-4o、Claude、Gemini在内的20个全球最先进AI模型全部得了0分,暴露了当前AI在基础视觉理解上的严重缺陷。研究发现AI主要在计数、空间推理等基础任务上失败,而非逻辑推理能力不足。