近日,据 Android Authority 报道,Google 的 Gemini 聊天机器人很快将获得生成 AI 视频的能力,用户不仅可以通过文字描述生成图片,还能创建短视频。根据最新报告,我们了解到了这项即将发布的实验性功能的运作方式和可能的限制。
Android 应用研究者 AssembleDebug 发现,Android 平台上最新版本的 Google 应用中包含了新的代码引用,暗示了一个代号为 "Toucan" 的未发布 Gemini 视频生成功能。
代码中的进一步内容提供了几个关于该功能可能如何运作的线索,包括对某些用户可能会有每日视频生成数量限制的提示。代码还显示,每个视频的生成时间约为 "1-2 分钟",这意味着创建视频需要相当大的计算能力。
在 Google 应用代码中发现的相关文本字符串包括:
"使用 Toucan(Gemini 的新实验性生成模型)从文本获取高质量视频。只需描述你的想法,Toucan 每次都可以根据你的要求生成新的内容"
"正在创建你的 Toucan..."
"这可能需要 1-2 分钟"
"你已达到今天的 Toucan 生成限制,请明天再试"
Google 的 AI 视频生成器:可能的工作方式
有趣的是,上述文本将 "Toucan" 称为可以创建的"东西",这表明它可能是一种特定类型的 AI 生成视频创作,而不是通用的 AI 视频生成工具。这也暗示该应用将只能从文本输入生成 Toucan,而不能从静态图像或视频等其他输入创建。
每日限制的存在为 Google 提供了向 Gemini Advanced 付费用户提供不同体验的可能性,甚至可能允许购买额外生成次数的信用点数。AI 视频生成成本较高,目前市面上大多数可用选项,如 Kling 或 Hailuo AI,都采用付费订阅或按次付费的信用点数模式运营,通常在特定时期内允许少量免费生成。
Google 尚未正式宣布 Toucan 视频生成功能,因此我们需要等待看看它何时或是否会向用户发布。不过,持续开发的证据表明该功能很快就会推出。
好文章,需要你的鼓励
AI颠覆预计将在2026年持续,推动企业适应不断演进的技术并扩大规模。国际奥委会、Moderna和Sportradar的领导者在纽约路透社峰会上分享了他们的AI策略。讨论焦点包括自建AI与购买第三方资源的选择,AI在内部流程优化和外部产品开发中的应用,以及小型模型在日常应用中的潜力。专家建议,企业应将AI建设融入企业文化,以创新而非成本节约为驱动力。
字节跳动等机构联合发布GAR技术,让AI能同时理解图像的全局和局部信息,实现对多个区域间复杂关系的准确分析。该技术通过RoI对齐特征重放方法,在保持全局视野的同时提取精确细节,在多项测试中表现出色,甚至在某些指标上超越了体积更大的模型,为AI视觉理解能力带来重要突破。
Spotify在新西兰测试推出AI提示播放列表功能,用户可通过文字描述需求让AI根据指令和听歌历史生成个性化播放列表。该功能允许用户设置定期刷新,相当于创建可控制算法的每周发现播放列表。这是Spotify赋予用户更多控制权努力的一部分,此前其AI DJ功能也增加了语音提示选项,反映了各平台让用户更好控制算法推荐的趋势。
Inclusion AI团队推出首个开源万亿参数思维模型Ring-1T,通过IcePop、C3PO++和ASystem三项核心技术突破,解决了超大规模强化学习训练的稳定性和效率难题。该模型在AIME-2025获得93.4分,IMO-2025达到银牌水平,CodeForces获得2088分,展现出卓越的数学推理和编程能力,为AI推理能力发展树立了新的里程碑。