我拿着手机在公寓里走动,一边录视频一边与 Google 的 Gemini Live 交谈。我正在带着 AI 参观我的住处,并考验它能否认出它看到的具体物品。当它识别出我客厅花瓶中的花朵(洋甘菊和石竹)后,我想考考它:我问它能否告诉我剪刀放在哪里。"我刚才看到你的剪刀就在桌子上,就在那包绿色开心果旁边。你看到了吗?"
它说对了,我惊叹不已。
Gemini Live 能识别的不仅仅是家居用品。Google 表示,它可以帮你在拥挤的火车站导航,或者辨认糕点的馅料。它还能提供艺术品的深入信息,比如物品的来源地以及是否是限量版。
这不只是一个升级版的 Google Lens。你可以与它对话,它也会回应你。我不需要用特定的方式与 Gemini 交谈—对话就像日常聊天一样自然。比起 Google 正在逐步淘汰的旧版 Google Assistant 强多了。
Google 和 Samsung 刚开始正式向所有 Pixel 9 和 Galaxy S25 手机推出这项功能。这些设备可以免费使用该功能,其他 Pixel 手机则需要通过 Google AI Premium 订阅来访问。Google 还发布了一个展示该功能的 2025 年 4 月 Pixel Drop 新 YouTube 视频,Google Store 上也有了专门的介绍页面。
你只需要启动 Gemini,开启摄像头并开始对话即可。
Gemini Live 是 Google 的 Project Astra 的延续,该项目去年首次亮相,可能是该公司最具"未来感"的功能,是生成式 AI 能力的实验性下一步,超越了像 ChatGPT、Claude 或 Gemini 这样简单的文字输入或语音提示聊天机器人。随着 AI 公司持续大幅提升 AI 工具的能力,从视频生成到原始计算能力都有显著提升。与 Gemini Live 类似,苹果也在去年末以测试版形式发布了 Visual Intelligence。虽然它的工作方式与 Google 的产品不同,但 iPhone 最终获得类似功能也不足为奇。
我的重要感悟是,像 Gemini Live 这样的功能有潜力改变我们与周围世界的互动方式,只需将摄像头对准几乎任何物体,就能将我们的数字世界和物理世界融合在一起。
我对 Gemini Live 进行了真实测试
Gemini Live 提前几天出现在我的 Pixel 9 Pro XL 上,所以我已经有机会体验了一下。
第一次尝试时,当我将一个非常特别的毛绒兔子游戏收藏品放在摄像头前时,Gemini 的识别准确度令人震惊。第二次是在艺术画廊里向朋友展示时。它不仅识别出了十字架上的乌龟(别问我为什么),还立即识别并翻译了乌龟旁边的汉字,让我们两人都感到毛骨悚然,但我想这种感觉还不错。
在参观我公寓时,我是按照 Google 去年夏天首次展示这些实时视频 AI 功能时的演示来做的。我尝试了公寓里的随机物品(水果、书籍、润唇膏),它都能轻松识别出来。
然后我开始思考如何对这个功能进行压力测试。我试图录制屏幕来记录它的运行情况,但在这个任务上总是会出问题。如果我用一些非常规的物品来测试呢?我是恐怖题材的超级粉丝——电影、电视剧、电子游戏——收藏了无数相关的收藏品、小饰品等。它对这些更冷门的物品表现如何呢?
首先,我要说 Gemini 在同一轮问题中可能会表现得既令人惊叹又令人沮丧。我让 Gemini 识别了大约 11 个物品,随着实时会话的进行,有时它的表现会变得更差,所以我不得不将每次会话限制在一两个物品。我猜测 Gemini 试图利用先前识别物品的上下文信息来猜测新物品,这在某种程度上是有道理的,但最终对我和它都没有帮助。
有时,Gemini 表现出色,毫不费力就能给出正确答案,但这通常发生在识别较新或较流行的物品时。例如,当它立即猜出我的一个测试物品不仅来自《命运 2》,而且是去年季节性活动的限量版时,我感到相当惊讶。
在其他时候,Gemini 会完全偏离正确答案,我需要给它更多提示才能让它接近正确答案。有时,它似乎会利用我之前会话的上下文来得出答案,将多个物品错误地识别为来自《寂静岭》系列,而实际上并不是。我确实有一个专门用来展示这个游戏系列的展示柜,所以我能理解为什么它会迅速联想到这个方向。
Gemini 有时会完全出错。不止一次,Gemini 将某个物品错误识别为尚未发布的《寂静岭:f》游戏中的虚构角色,显然是将不同作品的元素混在了一起。另一个我经常遇到的问题是,当 Gemini 给出错误答案时,即使我纠正它并给出更接近的提示,或直接告诉它正确答案,它仍会重复之前的错误答案,就好像这是一个新的猜测。遇到这种情况时,我会关闭会话并重新开始,但这并不总是有帮助。
我发现的一个技巧是,某些对话比其他对话效果更好。如果我滚动浏览 Gemini 的对话列表,点击一个曾经正确识别出特定物品的旧对话,然后从那个对话重新开始实时交谈,它就能毫无问题地识别这些物品。虽然这不一定令人惊讶,但有趣的是,即使使用相同的语言,某些对话的效果也比其他对话更好。
Google 没有回应我关于 Gemini Live 工作原理的询问。
我希望 Gemini 能成功回答我有时非常具体的问题,所以我提供了大量提示来帮助它。这些提示通常很有帮助,但并不总是有效。以下是我尝试让 Gemini 识别并提供信息的一系列物品。
好文章,需要你的鼓励
从ADHD意识游戏到疫苗教育游戏,目的驱动的游戏正在重塑全球公共健康沟通。研究表明,这些游戏不仅能提高参与度和知识保留率,还能带来更持久的行为改变。专家认为,结合AI聊天机器人的游戏化健康工具有望进一步提高效率,为全球健康挑战提供创新解决方案。
Google 推出了新一代应用开发平台 Firebase Studio,利用生成式 AI 技术,让用户能在浏览器中快速创建自定义应用。该平台集成了 Google 的多项开发工具,支持多种编程语言和框架,提供各类预置模板和 AI 辅助功能,大大简化了应用开发流程。目前该平台已开放预览版供所有 Google 账户用户使用。
随着人工智能的发展,企业面临着前所未有的安全挑战。40%以上的企业欺诈现在由AI驱动,能够模仿真实用户行为、绕过传统防御系统,并以压倒性的速度进行攻击。2024年,近90%的企业遭受攻击,半数损失超过1000万美元。为应对这一威胁,安全团队需要采用全新的思维方式和技术手段,实时评估每个用户的风险,构建更加智能和动态的防御体系。
Google 推出统一安全平台 GUS,整合多项安全产品和服务,包括威胁情报、安全运营、云安全等。该平台由 Gemini AI 驱动,旨在为企业提供全面的安全数据层面,简化安全管理流程,提高威胁检测和响应效率。Google 期望通过这一平台解决企业安全领导者面临的碎片化安全解决方案问题,为用户提供更好的安全成果。