在新推出的Pixel 10系列发布中,谷歌抢在苹果之前为消费者带来AI驱动的智能手机。这些设备在周三的"Made by Google"直播活动中正式发布,比苹果预计的iPhone 17发布提前数周,而iPhone 17预计只会带来常规升级——更好的摄像头、可能更轻薄的设计和新配色选择。
与此同时,谷歌一直在快速将其AI平台整合到设备中。
去年,Pixel 9系列增加了多项AI功能,如Gemini Live(Gemini语音模式)、图像生成工具、通话记录、可搜索截图等。谷歌表示,自那时起,Gemini Live语音对话的时长比文本对话长五倍。
今年,这家科技巨头在Pixel 10发布中推出了更多AI驱动的升级功能,包括相机视觉叠加功能、主动式"Magic Cue"功能、Camera Coach、通话语音翻译、类似助手的"Take a Message"功能、Pixel Journal等。
这些更新的组合让谷歌能够展示其最新AI技术在Tensor G5处理器增强下的能力,这是该公司为AI体验设计的定制芯片的升级版,也是首个运行最新Gemini Nano模型的处理器。
在发布的同时,谷歌宣布Gemini Live将获得新的音频模型,能够检测你的语调——比如你是兴奋还是担忧——并相应调整其回应。
通过名为视觉叠加的新功能,Gemini Live将能够通过相机镜头看到你所看到的内容,并通过在屏幕上高亮显示内容来提供指导。例如,在国外旅行时,你可以举起手机查看周围的街道标志是否提供路边停车信息。
另一个新功能Magic Cue让AI更加主动,在Gmail、日历、信息、截图等应用中实时提供情境建议。
让AI与谷歌技术进行更主动交互的想法是该公司多年来的梦想,早在AI时代之前就有了。例如,在2010年代初,谷歌推出了一个名为Google Now的Android功能,会弹出与你日常安排或时间相关的实时信息卡片,如午餐时间附近的餐厅、即将到来的会议或航班详情。
多年后,Magic Cue是这一功能的AI驱动重新推出,但它会深入到你的日常应用和交互中。
谷歌演示了Magic Cue如何建议与朋友用餐的餐厅,提供快速致电餐厅预订的功能。它可以建议回复朋友预订详情,或指向你的日历检查可用时间。
Magic Cue的建议会出现在你正在使用的应用中,并用彩虹色边框包围以区分,同时也会出现在Daily Hub中,这是你Discover信息流中的个性化每日摘要。你也可以点击建议来采取行动。
与Google Now类似,Magic Cue也能够显示提醒。但它更进一步,能够更直观地弹出提醒和通知。例如,它可能提醒你需要处理的事务,如退回在线订单,建议你可能想要研究的话题,或推荐新的播放列表。
发布时,Magic Cue的建议将限于特定活动,如结算账单、向日历添加事件、在天气应用中显示即将到来的旅行天气预报。随着时间推移,谷歌将添加其他选项,并让你配置该功能可访问的数据源。
值得注意的是,苹果也在尝试类似功能,允许用户通过Siri在应用内进行交互和操作,但不幸的是,其AI驱动的Siri已被推迟到2026年。
Pixel 10系列中另一个有趣的新增功能是Camera Coach,这是一个AI驱动的助手,旨在让你成为更好的摄影师。
该功能将在新设备上以预览版形式推出,使用Gemini模型提供如何更好地构图和拍摄的建议。你甚至可以选择"获得灵感"选项,该选项会建议你可能没有考虑过的场景。
此外,相机现在能够识别你正在拍摄合影,"Auto Best Take"功能会激活并分析几秒钟内拍摄的多达150张图像,找到最佳的一张——无论是你自己拍摄的照片,还是通过AI混合其他照片创建的。
然后,通过AI驱动的"Ask Photos"工具,你可以编辑照片做其他事情,如修正光线、改变构图,或通过语音或文本与Photos的AI助手交流来从照片中移除物体。
在Pro设备上,Pro Res Zoom选项也将使用AI让你能够以30-60倍的倍数"放大"建筑和风景,或以30-60倍放大动物和野生动物。
与其在摄影中增强使用AI相关,Pixel 10手机也将是首批实施C2PA标准的设备,该标准确立数字内容的来源和编辑历史,有助于识别照片何时被AI修改。
另一个新的AI功能——语音翻译,将使用设备端AI实时翻译你的电话通话,听起来像是每个说话者自己的声音。如果效果如描述的那样好,这对商业用户和世界旅行者来说可能是一个潜在的游戏规则改变者。
该功能将支持英语与西班牙语、德语、日语、法语、印地语、意大利语、葡萄牙语、瑞典语、俄语和印尼语之间的翻译。
在Pixel的电话应用中,名为Take a Message的新功能为未接和拒接电话提供实时转录,然后使用AI根据来电者的语音邮件识别你需要采取的下一步行动。
与此同时,Pixel Journal是谷歌对苹果Journal应用的回应,但使用AI提示你分享想法、跟踪目标进展,并随时间提供洞察。
Pixel 10系列的其他小型AI升级包括集成到Gboard键盘的写作工具、Pixel Studio中Pixel截图的更新,以及Notebook LM与录音机和截图的集成。
Q&A
Q1:Pixel 10系列有哪些主要的AI新功能?
A:Pixel 10系列新增了多项AI功能,包括相机视觉叠加功能、主动式Magic Cue功能、Camera Coach摄影助手、通话语音翻译、Take a Message语音留言处理、Pixel Journal日志应用等。这些功能都基于最新的Tensor G5处理器和Gemini Nano模型。
Q2:Magic Cue功能具体能做什么?
A:Magic Cue是一个主动式AI助手,能在Gmail、日历、信息、截图等应用中实时提供情境建议。比如建议与朋友用餐的餐厅并快速预订,建议回复朋友预订详情,提醒你需要处理的事务如退换商品,或推荐研究话题和播放列表等。
Q3:语音翻译功能支持哪些语言?
A:语音翻译功能使用设备端AI实时翻译电话通话,听起来像每个说话者自己的声音。支持英语与西班牙语、德语、日语、法语、印地语、意大利语、葡萄牙语、瑞典语、俄语和印尼语之间的翻译。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。