Gemini Live 不仅仅是会对话的 AI,它现在有了"眼睛"。我亲自体验了一下

Google 推出的 Gemini Live 不仅能进行对话,还能通过摄像头识别物体。这项功能可以帮助用户在日常生活中获取更多信息,如识别艺术品、导航等。它比简单的图像识别更强大,能与用户进行自然对话。目前该功能已开始在部分手机上推出,有望改变我们与周围世界互动的方式。

我拿着手机在公寓里走动,一边录视频一边与 Google 的 Gemini Live 交谈。我正在带着 AI 参观我的住处,并考验它能否认出它看到的具体物品。当它识别出我客厅花瓶中的花朵(洋甘菊和石竹)后,我想考考它:我问它能否告诉我剪刀放在哪里。"我刚才看到你的剪刀就在桌子上,就在那包绿色开心果旁边。你看到了吗?"

它说对了,我惊叹不已。

Gemini Live 能识别的不仅仅是家居用品。Google 表示,它可以帮你在拥挤的火车站导航,或者辨认糕点的馅料。它还能提供艺术品的深入信息,比如物品的来源地以及是否是限量版。

这不只是一个升级版的 Google Lens。你可以与它对话,它也会回应你。我不需要用特定的方式与 Gemini 交谈—对话就像日常聊天一样自然。比起 Google 正在逐步淘汰的旧版 Google Assistant 强多了。

Google 和 Samsung 刚开始正式向所有 Pixel 9 和 Galaxy S25 手机推出这项功能。这些设备可以免费使用该功能,其他 Pixel 手机则需要通过 Google AI Premium 订阅来访问。Google 还发布了一个展示该功能的 2025 年 4 月 Pixel Drop 新 YouTube 视频,Google Store 上也有了专门的介绍页面。

你只需要启动 Gemini,开启摄像头并开始对话即可。

Gemini Live 是 Google 的 Project Astra 的延续,该项目去年首次亮相,可能是该公司最具"未来感"的功能,是生成式 AI 能力的实验性下一步,超越了像 ChatGPT、Claude 或 Gemini 这样简单的文字输入或语音提示聊天机器人。随着 AI 公司持续大幅提升 AI 工具的能力,从视频生成到原始计算能力都有显著提升。与 Gemini Live 类似,苹果也在去年末以测试版形式发布了 Visual Intelligence。虽然它的工作方式与 Google 的产品不同,但 iPhone 最终获得类似功能也不足为奇。

我的重要感悟是,像 Gemini Live 这样的功能有潜力改变我们与周围世界的互动方式,只需将摄像头对准几乎任何物体,就能将我们的数字世界和物理世界融合在一起。

我对 Gemini Live 进行了真实测试

Gemini Live 提前几天出现在我的 Pixel 9 Pro XL 上,所以我已经有机会体验了一下。

第一次尝试时,当我将一个非常特别的毛绒兔子游戏收藏品放在摄像头前时,Gemini 的识别准确度令人震惊。第二次是在艺术画廊里向朋友展示时。它不仅识别出了十字架上的乌龟(别问我为什么),还立即识别并翻译了乌龟旁边的汉字,让我们两人都感到毛骨悚然,但我想这种感觉还不错。

在参观我公寓时,我是按照 Google 去年夏天首次展示这些实时视频 AI 功能时的演示来做的。我尝试了公寓里的随机物品(水果、书籍、润唇膏),它都能轻松识别出来。

然后我开始思考如何对这个功能进行压力测试。我试图录制屏幕来记录它的运行情况,但在这个任务上总是会出问题。如果我用一些非常规的物品来测试呢?我是恐怖题材的超级粉丝——电影、电视剧、电子游戏——收藏了无数相关的收藏品、小饰品等。它对这些更冷门的物品表现如何呢?

首先,我要说 Gemini 在同一轮问题中可能会表现得既令人惊叹又令人沮丧。我让 Gemini 识别了大约 11 个物品,随着实时会话的进行,有时它的表现会变得更差,所以我不得不将每次会话限制在一两个物品。我猜测 Gemini 试图利用先前识别物品的上下文信息来猜测新物品,这在某种程度上是有道理的,但最终对我和它都没有帮助。

有时,Gemini 表现出色,毫不费力就能给出正确答案,但这通常发生在识别较新或较流行的物品时。例如,当它立即猜出我的一个测试物品不仅来自《命运 2》,而且是去年季节性活动的限量版时,我感到相当惊讶。

在其他时候,Gemini 会完全偏离正确答案,我需要给它更多提示才能让它接近正确答案。有时,它似乎会利用我之前会话的上下文来得出答案,将多个物品错误地识别为来自《寂静岭》系列,而实际上并不是。我确实有一个专门用来展示这个游戏系列的展示柜,所以我能理解为什么它会迅速联想到这个方向。

Gemini 有时会完全出错。不止一次,Gemini 将某个物品错误识别为尚未发布的《寂静岭:f》游戏中的虚构角色,显然是将不同作品的元素混在了一起。另一个我经常遇到的问题是,当 Gemini 给出错误答案时,即使我纠正它并给出更接近的提示,或直接告诉它正确答案,它仍会重复之前的错误答案,就好像这是一个新的猜测。遇到这种情况时,我会关闭会话并重新开始,但这并不总是有帮助。

我发现的一个技巧是,某些对话比其他对话效果更好。如果我滚动浏览 Gemini 的对话列表,点击一个曾经正确识别出特定物品的旧对话,然后从那个对话重新开始实时交谈,它就能毫无问题地识别这些物品。虽然这不一定令人惊讶,但有趣的是,即使使用相同的语言,某些对话的效果也比其他对话更好。

Google 没有回应我关于 Gemini Live 工作原理的询问。

我希望 Gemini 能成功回答我有时非常具体的问题,所以我提供了大量提示来帮助它。这些提示通常很有帮助,但并不总是有效。以下是我尝试让 Gemini 识别并提供信息的一系列物品。

来源:cnet

0赞

好文章,需要你的鼓励

2025

04/09

23:08

分享

点赞

邮件订阅