谷歌智能体AI系统Gemini Spark能否真正兑现上月I/O大会上台演示的承诺?经过实际测试,结果表明大体上是可以的。
由于苹果公司计划使用该模型为全新Siri提供动力,这对苹果及其用户而言同样是一个好消息。
回顾一年多前,苹果评论人约翰·格鲁伯曾对苹果未能兑现新Siri承诺一事发起猛烈批评。他指出,苹果所做的不过是展示了一系列Apple Intelligence功能的概念视频,即便在精心受控的条件下,这些功能也根本无法实际演示。
谷歌推出智能体AI Gemini Spark时,则在台上进行了现场演示。这相较于视频模拟已是巨大进步,但精心准备的演示与真实使用场景之间,依然存在相当大的差距。
科技媒体The Verge的记者杰伊·彼得斯决定亲自上手测试这些演示功能,用自己的真实数据完成实际任务。他的第一项测试如下:
他要求Gemini起草一封发给妻子的邮件,内容是汇总2026年每月平均杂货支出。他希望通过这个测试验证几件事:Spark能否自行识别出他妻子的身份(无需提供姓名)?能否在Google Drive中找到正确的预算表格(文件名中并不含"预算"字样)?能否在Gmail中直接起草这封邮件?
"令人惊叹"这个词有时只是口头禅,但在这里,他认为这个评价相当贴切。
Spark很快给出了结果,彼得斯当场脱口而出:"哇,这真的太厉害了。"Spark不仅找到了他妻子的电子邮件地址,还从2026年预算表格中提取了正确数据,包括测试时仍未结束的5月份不完整数据,计算出月均杂货支出,并将所有内容整理成一封Gmail草稿。邮件正文以他妻子的名字称呼她,而她的邮件地址中并不包含她的名字。邮件甚至还加上了他们夫妻之间专用的结束语。
尽管并未完全实现演示中的所有功能,但彼得斯表示,自己"被结果震到了,尽管还不够完美"。这篇讨论其他测试案例的完整报道绝对值得一读。
谷歌在台上展示的内容,以及彼得斯在实际使用中大体验证的功能,正是苹果在其概念视频中所呈现的那类特性。全新Siri的落地虽然迟迟未能实现,但这次体验表明,它终将兑现苹果的承诺——即便这些承诺最终是由谷歌来实现的。
Q&A
Q1:Gemini Spark是什么?它能做什么?
A:Gemini Spark是谷歌推出的智能体AI系统,具备跨应用协作能力。它可以自动识别用户联系人信息、在Google Drive中查找相关文件、提取数据并汇总分析,最终在Gmail中生成完整的邮件草稿,全程无需用户逐步指令。
Q2:苹果的新Siri为什么迟迟没有落地?
A:苹果此前展示的新Siri功能主要以概念视频形式呈现,并非真实可用的产品演示,因此遭到业界批评。由于技术实现难度较高,相关功能的推出一再延迟。目前苹果计划借助谷歌的Gemini模型为新Siri提供支持,谷歌Gemini Spark的实测表现为新Siri的最终落地提供了一定信心。
Q3:Gemini Spark的实测结果是否完全符合演示效果?
A:并非完全一致。The Verge记者杰伊·彼得斯的实测显示,Gemini Spark在大多数演示功能上表现出色,能够完成复杂的跨应用任务,但并未百分之百还原所有演示内容。总体而言,彼得斯对结果表示"震惊",认为虽有瑕疵,但已相当令人印象深刻。
好文章,需要你的鼓励
CrowdStrike联合谷歌和Shadowserver基金会成功打击了GlassWorm恶意软件行动,同时摧毁其四条C2控制信道,该行动曾通过poisoned npm和Python包及VSCode扩展攻击开发者。然而,攻击者可借助开源生态系统低成本快速重建。与此同时,OSV数据库撤回157条疑似AI生成的误报记录,暴露出自动化安全报告的可靠性问题,信号噪音正在侵蚀防御工具的可信度。
耶路撒冷希伯来大学研究团队提出PhyGenHOI框架,将人体运动生成与物理仿真结合,让虚拟人物与三维物体之间的接触互动同时满足视觉自然性和物理真实性。
想提升AI图像生成质量?一个实用技巧是:先让聊天机器人为你设计专属的图像生成提示词,再将其用于对应的图像生成器。只需提供基本描述,让AI自动补充细节,生成更完整、精准的提示词。经测试,Gemini和ChatGPT均能返回远超用户自行编写的详细描述,图像生成效果明显更好。此外,由AI生成的提示词还能有效规避内容审核限制,让生成过程更顺畅。
本文介绍了弗莱堡大学等机构提出的3D-SC框架,通过引入三维基础模型的几何先验,无需人工标注即可解决AI图像匹配中的左右混淆和重复部件分不清的问题。