谷歌在今年年初开始为Gemini推出"个人智能"功能,让订阅AI服务的用户能够在使用该聊天机器人时享受更个性化的体验。近日,谷歌进一步将个人智能与图像生成模型及Google Photos相结合。用户选择开启后,生成的图像将能够访问用户的照片及相关标签,从而简化提示词输入,并生成更精准的AI图像。
这一变化从本质上优化了现有的操作流程。谷歌的Imagen 2是目前市面上表现最出色的AI图像生成工具之一,此前已经可以通过上传自己或他人的照片作为参考来创建新的AI内容。引入个人智能功能后,只要用户愿意,图像生成模型就能直接调用照片库中的内容,使整个流程更加顺畅。
通常来说,在AI提示词中加入更多个人数据,确实能带来更好的生成效果。谷歌举出了几个示例,说明将Imagen与Google Photos打通后能带来哪些帮助。用户无需在提示词中填写大量背景信息,只需输入"我的家人"或"我的狗",系统便会自动在照片库中检索相关图片。
例如,当你想要一张别具一格的家庭照片,只需输入"为我和我的家人创作一张最喜欢的活动的黏土动画风格图像"。在这条提示词中,Gemini会利用你在Google Photos中添加的标签来识别"家人",并根据图片内容判断"最喜欢的活动"是什么。
当然,你也可以直接在提示词中明确指定人物和活动内容来达到相似效果,但个人智能功能省去了这些额外输入的麻烦。它降低了操作门槛,也可能促使更多用户频繁使用AI工具——这正是谷歌的最终目标。
尚在完善中的功能
谷歌表示,这项新功能仍处于持续优化阶段,因此有时可能无法准确选取对应的图片。如果出现这种情况,用户可以查看来源列表,了解出错原因。系统会列出提示词所参考的图片,用户也可以在后续对话中向Gemini追问其选图依据。此外,通过Gemini中的加号按钮手动选择照片,也有助于弥补这一不足。
尽管Imagen 2现在可以浏览用户的Google Photos照片库来生成图像,谷歌强调,这些数据不会被留存用于模型训练。将个人数据用于提示词与将其用于AI训练,这两者的区别容易让人混淆,但谷歌表示不会将照片库中的任何图片用于训练。不过,谷歌确实会使用输入内容(即用户输入的文字)和输出内容(即模型的响应结果)来改进AI产品。这些内容中可能仍包含用户的个人信息,但与直接将所有照片纳入Imagen训练数据并不相同。
尽管如此,整个过程对部分用户来说可能仍有些让人不安。好消息是,即使使用Imagen生成图像,用户也无需授权其访问照片库。个人智能功能默认处于关闭状态,目前仅对谷歌AI付费计划用户开放(其中Imagen与Google Photos的联动功能,甚至面向基础版Plus套餐用户提供)。
不过,正如以往AI功能的推广路径所示,许多功能往往先在付费层级推出,之后再向所有谷歌账户用户开放。Gemini会积极地提示用户开启个人智能功能,因此即便未订阅付费服务,用户未来也可能看到相关弹窗提醒。此外,个人智能功能还支持将Gemini与Gmail、YouTube及其他谷歌服务相连接,用户在设置时可自行决定允许哪些服务接入。
Q&A
Q1:Gemini的个人智能功能是什么?它有什么用?
A:Gemini的个人智能功能是谷歌推出的一项个性化AI能力,允许Gemini在生成图像时访问用户的Google Photos照片库及相关标签。借助这一功能,用户无需在提示词中填写大量背景信息,只需简单描述如"我的家人"或"我的狗",系统便会自动识别并调取相关照片,从而生成更精准、更个性化的AI图像。
Q2:Gemini会用我的Google Photos照片来训练AI模型吗?
A:不会。谷歌明确表示,Gemini在生成图像时访问用户照片库,仅用于处理当次提示词请求,不会将照片库中的图片留存用于AI模型训练。不过需要注意的是,谷歌会使用用户的输入内容(文字提示词)和输出内容(模型生成结果)来改进AI产品,这部分数据中可能包含一定的个人信息,但与直接使用照片进行训练是不同的概念。
Q3:个人智能功能是默认开启的吗?普通用户也能用吗?
A:个人智能功能默认处于关闭状态,需要用户主动选择开启。目前该功能仅向谷歌AI付费计划用户开放,包括基础版Plus套餐用户也可使用Imagen与Google Photos的联动能力。不过,根据谷歌过往的功能推广惯例,该功能未来有可能向所有谷歌账户用户扩展,且Gemini会主动弹窗提示用户开启此功能。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。