当 Google 推出新的 AI Gemini 时,展示了它能够进行流畅对话和清晰解释的能力,我们不禁开始思考这对于我们 Nest 音箱、智能显示屏和 Google Home 应用中的 Google Assistant 意味着什么。现在我们有了答案,因为 Google 已经开始在移动设备上完全用 Gemini 替代 Google Assistant。
根据 Google 博客更新:"在未来几个月内,我们将为更多移动设备用户从 Google Assistant 升级到 Gemini;到今年晚些时候,传统的 Google Assistant 将不再支持大多数移动设备,也无法在移动应用商店下载。"
对手机用户来说这很明确!在 2025 年就要和旧的语音助手说再见了,因为它很快就会成为过去。但是我们的智能家居呢?使用 Google Assistant 控制安防摄像头或操控 Google Home 应用又该如何?Google 给出了一些重要提示。
暂时的智能家居休战
首先,如果你不知道的话,你已经可以在 Google Home 上使用 Gemini 进行更复杂的搜索任务,同时 Google 正在将 AI 的部分功能整合进来,以提高 Google Assistant 在 Nest 设备上的准确性。所以在至少一个 Google 平台上,语音助手和 AI 已经共存。这似乎就是 Google 目前为其所有 Nest 和家居技术采取的方向。
虽然汽车、平板电脑、耳机和手表都将永久转换到 Gemini,但 Google 在智能家居方面显得更为谨慎。公司表示:"我们也在为音箱、显示屏和电视等家居设备引入由 Gemini 驱动的新体验。我们期待在未来几个月内与大家分享更多细节。在此之前,Google Assistant 将继续在这些设备上运行。"
听起来 Google 的家居计划仍在开发中,但转换终将到来。这样做是有充分理由的。手机上的 Gemini 主要存在于 Google 自己的生态系统中,可以访问 Google 搜索引擎、照片应用等。但在智能家居领域,Gemini 必须与各种其他平台和设备进行通信。Matter 标准让这变得更容易一些,但仍然有大量工作要做。
Google Nest 还必须考虑其与智能家居品牌合作伙伴的合作方式。许多支持的品牌多年来一直使用"兼容 Google Assistant/Google Home"的表述。切换到"Google Gemini"意味着需要重写大量营销和产品规格等内容。这带来了复杂性并增加了让客户感到困惑的风险,这也是这一步骤可能需要更多时间的另一个原因。
品牌重塑,如果可以保持的话
Google 谈到人们如何"切换"到 Gemini,但对普通用户来说,最大的区别将是响应的声音:你甚至可能继续使用相同的唤醒词,尽管这些细节尚未最终确定。
在智能家居中,我们可能会以与使用 Google Assistant 相同的方式使用 Gemini,只是它在回答时会更准确,并能够对家居管理提供更多建议。虽然许多 AI 集成可能在幕后进行,但对普通家庭用户来说,这更像是一次品牌重塑。
重要的问题是,这次品牌重塑是否值得期待。与 Alexa 或 Apple 的 Siri 等语音助手相比,过去一年我们在使用 Google Assistant 控制智能家居时遇到了一些问题。虽然 Gemini 有所改进,但仍远非完美,如果大多数人接触 Google AI 的体验是通过有缺陷的搜索结果概览,他们可能会对这种改变持谨慎态度。
另一个问题是关于隐私的。正如亚马逊即将推出的 Alexa Plus 最近移除隐私功能所显示的那样,这些新的 AI 语音助手在处理我们的个人数据时可能更随意,这让人感到不安。Gemini 需要在收集家居数据的数量与提供的实用性之间保持谨慎平衡。
2025 年最佳家庭安全摄像头:我的首选
详见 Cnet
要了解更多信息,请查看我们关于 AI 如何在家庭安全中发挥作用的指南,Gemini 如何将你的文章转换为 AI 配音播客,以及 Gemini 如何已经通过使用你的搜索历史数据来个性化你的 Google 搜索结果而变得有些侵入性。
好文章,需要你的鼓励
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。
这项由中国人民大学高瓴人工智能学院研究团队发表的研究解决了大语言模型评判中的自我偏好问题。研究提出了DBG分数,通过比较模型给自身回答的分数与黄金判断的差异来测量偏好度,有效分离了回答质量与自我偏好偏差。实验发现,预训练和后训练模型都存在自我偏好,但大模型比小模型偏好度更低;调整回答风格和使用相同数据训练不同模型可减轻偏好。研究还从注意力分析角度揭示了自我偏好的潜在机制,为提高AI评判客观性提供了重要指导。
这篇研究提出了DenseDPO,一种改进视频生成模型的新方法,通过三大创新解决了传统方法中的"静态偏好"问题:使用结构相似的视频对进行比较,采集细粒度的时序偏好标注,并利用现有视觉语言模型自动标注。实验表明,DenseDPO不仅保留了视频的动态性,还在视觉质量方面与传统方法相当,同时大大提高了数据效率。这项技术有望推动AI生成更加自然、动态的视频内容。