Gemini Live 不仅仅是会对话的 AI，它现在有了"眼睛"。我亲自体验了一下

Google 推出的 Gemini Live 不仅能进行对话,还能通过摄像头识别物体。这项功能可以帮助用户在日常生活中获取更多信息,如识别艺术品、导航等。它比简单的图像识别更强大,能与用户进行自然对话。目前该功能已开始在部分手机上推出,有望改变我们与周围世界互动的方式。

我拿着手机在公寓里走动，一边录视频一边与 Google 的 Gemini Live 交谈。我正在带着 AI 参观我的住处，并考验它能否认出它看到的具体物品。当它识别出我客厅花瓶中的花朵(洋甘菊和石竹)后，我想考考它：我问它能否告诉我剪刀放在哪里。"我刚才看到你的剪刀就在桌子上，就在那包绿色开心果旁边。你看到了吗？"

它说对了，我惊叹不已。

Gemini Live 能识别的不仅仅是家居用品。Google 表示，它可以帮你在拥挤的火车站导航，或者辨认糕点的馅料。它还能提供艺术品的深入信息，比如物品的来源地以及是否是限量版。

这不只是一个升级版的 Google Lens。你可以与它对话，它也会回应你。我不需要用特定的方式与 Gemini 交谈—对话就像日常聊天一样自然。比起 Google 正在逐步淘汰的旧版 Google Assistant 强多了。

Google 和 Samsung 刚开始正式向所有 Pixel 9 和 Galaxy S25 手机推出这项功能。这些设备可以免费使用该功能，其他 Pixel 手机则需要通过 Google AI Premium 订阅来访问。Google 还发布了一个展示该功能的 2025 年 4 月 Pixel Drop 新 YouTube 视频，Google Store 上也有了专门的介绍页面。

你只需要启动 Gemini，开启摄像头并开始对话即可。

Gemini Live 是 Google 的 Project Astra 的延续，该项目去年首次亮相，可能是该公司最具"未来感"的功能，是生成式 AI 能力的实验性下一步，超越了像 ChatGPT、Claude 或 Gemini 这样简单的文字输入或语音提示聊天机器人。随着 AI 公司持续大幅提升 AI 工具的能力，从视频生成到原始计算能力都有显著提升。与 Gemini Live 类似，苹果也在去年末以测试版形式发布了 Visual Intelligence。虽然它的工作方式与 Google 的产品不同，但 iPhone 最终获得类似功能也不足为奇。

我的重要感悟是，像 Gemini Live 这样的功能有潜力改变我们与周围世界的互动方式，只需将摄像头对准几乎任何物体，就能将我们的数字世界和物理世界融合在一起。

我对 Gemini Live 进行了真实测试

Gemini Live 提前几天出现在我的 Pixel 9 Pro XL 上，所以我已经有机会体验了一下。

第一次尝试时，当我将一个非常特别的毛绒兔子游戏收藏品放在摄像头前时，Gemini 的识别准确度令人震惊。第二次是在艺术画廊里向朋友展示时。它不仅识别出了十字架上的乌龟(别问我为什么)，还立即识别并翻译了乌龟旁边的汉字，让我们两人都感到毛骨悚然，但我想这种感觉还不错。

在参观我公寓时，我是按照 Google 去年夏天首次展示这些实时视频 AI 功能时的演示来做的。我尝试了公寓里的随机物品(水果、书籍、润唇膏)，它都能轻松识别出来。

然后我开始思考如何对这个功能进行压力测试。我试图录制屏幕来记录它的运行情况，但在这个任务上总是会出问题。如果我用一些非常规的物品来测试呢？我是恐怖题材的超级粉丝——电影、电视剧、电子游戏——收藏了无数相关的收藏品、小饰品等。它对这些更冷门的物品表现如何呢？

首先，我要说 Gemini 在同一轮问题中可能会表现得既令人惊叹又令人沮丧。我让 Gemini 识别了大约 11 个物品，随着实时会话的进行，有时它的表现会变得更差，所以我不得不将每次会话限制在一两个物品。我猜测 Gemini 试图利用先前识别物品的上下文信息来猜测新物品，这在某种程度上是有道理的，但最终对我和它都没有帮助。

有时，Gemini 表现出色，毫不费力就能给出正确答案，但这通常发生在识别较新或较流行的物品时。例如，当它立即猜出我的一个测试物品不仅来自《命运 2》，而且是去年季节性活动的限量版时，我感到相当惊讶。

在其他时候，Gemini 会完全偏离正确答案，我需要给它更多提示才能让它接近正确答案。有时，它似乎会利用我之前会话的上下文来得出答案，将多个物品错误地识别为来自《寂静岭》系列，而实际上并不是。我确实有一个专门用来展示这个游戏系列的展示柜，所以我能理解为什么它会迅速联想到这个方向。

Gemini 有时会完全出错。不止一次，Gemini 将某个物品错误识别为尚未发布的《寂静岭：f》游戏中的虚构角色，显然是将不同作品的元素混在了一起。另一个我经常遇到的问题是，当 Gemini 给出错误答案时，即使我纠正它并给出更接近的提示，或直接告诉它正确答案，它仍会重复之前的错误答案，就好像这是一个新的猜测。遇到这种情况时，我会关闭会话并重新开始，但这并不总是有帮助。

我发现的一个技巧是，某些对话比其他对话效果更好。如果我滚动浏览 Gemini 的对话列表，点击一个曾经正确识别出特定物品的旧对话，然后从那个对话重新开始实时交谈，它就能毫无问题地识别这些物品。虽然这不一定令人惊讶，但有趣的是，即使使用相同的语言，某些对话的效果也比其他对话更好。

Google 没有回应我关于 Gemini Live 工作原理的询问。

我希望 Gemini 能成功回答我有时非常具体的问题，所以我提供了大量提示来帮助它。这些提示通常很有帮助，但并不总是有效。以下是我尝试让 Gemini 识别并提供信息的一系列物品。

来源：cnet

0赞

好文章，需要你的鼓励

Gemini Live 不仅仅是会对话的 AI，它现在有了"眼睛"。我亲自体验了一下

来源：cnet

2025

04/09

23:08

分享

点赞

Apple Music发布公开信：致力于在AI时代维护音乐公平生态

NHS十年计划的成功关键：数字健康必须达到临床标准

xAI与Anthropic计算资源合作协议，揭示AI算力独立商业化新趋势

利用Ubicept Photon Fusion提升CMOS夜间成像性能

Humanoid与制造业巨头博世达成战略合作，推进人形机器人量产

企业网络基础设施是否已为AI工作负载做好准备？

AI遭Z世代抵制：CIO面临的人才培养危机

Flytrex在达拉斯开设无人机制造工厂，加速扩张外卖配送网络

Brain Corp与加州大学圣地亚哥分校合作推进物理AI基础智能层研究

哈丁视角：工厂竞争的现实法则——执行力才是制胜关键

Doozy Robotics宣布全球扩张，以AI人形机器人构建工厂自动化劳动力

华为AI DC全栈方案发布：以数据觉醒，驱动产业智能跃迁

亚马逊推出新实时语音模型 Nova Sonic，面向第三方企业开发

Google 用 AI 魔法重塑《绿野仙踪》，打造全沉浸式 3D 体验

Nvidia 新型 Llama-3.1 Nemotron Ultra 以一半参数量超越 DeepSeek R1

AI 遇见大型机：IBM Z17 大胆押注内幕

Starburst CEO: AI 领域的胜者在于数据访问能力

这家初创公司刚获得1.15亿美元融资，让工程设计速度提升1000倍 — 贝佐斯、奥特曼和英伟达都在押注其成功

ChatGPT 危险：5 件你绝不应该告诉 AI 机器人的事情

斯坦福的 AI 指数：重塑企业科技战略的 5 个关键洞察

亚马逊"为我购买"功能成为AI购物代理竞赛的最新参与者

宝洁研究发现 AI 可能帮助制作更美味的品客薯片，提升旧司派品牌，改进吉列产品

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: