近日,据 Android Authority 报道,Google 的 Gemini 聊天机器人很快将获得生成 AI 视频的能力,用户不仅可以通过文字描述生成图片,还能创建短视频。根据最新报告,我们了解到了这项即将发布的实验性功能的运作方式和可能的限制。
Android 应用研究者 AssembleDebug 发现,Android 平台上最新版本的 Google 应用中包含了新的代码引用,暗示了一个代号为 "Toucan" 的未发布 Gemini 视频生成功能。
代码中的进一步内容提供了几个关于该功能可能如何运作的线索,包括对某些用户可能会有每日视频生成数量限制的提示。代码还显示,每个视频的生成时间约为 "1-2 分钟",这意味着创建视频需要相当大的计算能力。
在 Google 应用代码中发现的相关文本字符串包括:
"使用 Toucan(Gemini 的新实验性生成模型)从文本获取高质量视频。只需描述你的想法,Toucan 每次都可以根据你的要求生成新的内容"
"正在创建你的 Toucan..."
"这可能需要 1-2 分钟"
"你已达到今天的 Toucan 生成限制,请明天再试"
Google 的 AI 视频生成器:可能的工作方式
有趣的是,上述文本将 "Toucan" 称为可以创建的"东西",这表明它可能是一种特定类型的 AI 生成视频创作,而不是通用的 AI 视频生成工具。这也暗示该应用将只能从文本输入生成 Toucan,而不能从静态图像或视频等其他输入创建。
每日限制的存在为 Google 提供了向 Gemini Advanced 付费用户提供不同体验的可能性,甚至可能允许购买额外生成次数的信用点数。AI 视频生成成本较高,目前市面上大多数可用选项,如 Kling 或 Hailuo AI,都采用付费订阅或按次付费的信用点数模式运营,通常在特定时期内允许少量免费生成。
Google 尚未正式宣布 Toucan 视频生成功能,因此我们需要等待看看它何时或是否会向用户发布。不过,持续开发的证据表明该功能很快就会推出。
好文章,需要你的鼓励
杜克大学研究团队建立了首个专门针对Web智能体攻击检测的综合评估标准WAInjectBench。研究发现,现有攻击手段极其多样化,从图片像素篡改到隐藏弹窗无所不包。虽然检测方法对明显恶意指令有中等效果,但对隐蔽攻击几乎无能为力。研究构建了包含近千个恶意样本的测试数据库,评估了十二种检测方法,揭示了文本和图像检测的互补性。这项研究为Web智能体安全防护指明了方向,提醒我们在享受AI便利时必须保持安全意识。
生成式AI的兴起让谷歌和Meta两大科技巨头受益匪浅。谷歌母公司Alphabet第三季度广告收入同比增长12%达742亿美元,云服务收入增长33%至151.5亿美元,季度总收入首次突破千亿美元大关。Meta第三季度收入512.5亿美元,同比增长26%。两家公司都将大幅增加AI基础设施投资,Meta预计2025年资本支出提升至700亿美元,Alphabet预计达910-930亿美元。
加州大学圣地亚哥分校研究团队系统研究了AI智能体多回合强化学习训练方法,通过环境、策略、奖励三大支柱的协同设计,提出了完整的训练方案。研究在文本游戏、虚拟家庭和软件工程等多个场景验证了方法有效性,发现简单环境训练能迁移到复杂任务,监督学习初始化能显著减少样本需求,密集奖励能改善学习效果。这为训练能处理复杂多步骤任务的AI智能体提供了实用指南。