近日,据 Android Authority 报道,Google 的 Gemini 聊天机器人很快将获得生成 AI 视频的能力,用户不仅可以通过文字描述生成图片,还能创建短视频。根据最新报告,我们了解到了这项即将发布的实验性功能的运作方式和可能的限制。
Android 应用研究者 AssembleDebug 发现,Android 平台上最新版本的 Google 应用中包含了新的代码引用,暗示了一个代号为 "Toucan" 的未发布 Gemini 视频生成功能。
代码中的进一步内容提供了几个关于该功能可能如何运作的线索,包括对某些用户可能会有每日视频生成数量限制的提示。代码还显示,每个视频的生成时间约为 "1-2 分钟",这意味着创建视频需要相当大的计算能力。
在 Google 应用代码中发现的相关文本字符串包括:
"使用 Toucan(Gemini 的新实验性生成模型)从文本获取高质量视频。只需描述你的想法,Toucan 每次都可以根据你的要求生成新的内容"
"正在创建你的 Toucan..."
"这可能需要 1-2 分钟"
"你已达到今天的 Toucan 生成限制,请明天再试"
Google 的 AI 视频生成器:可能的工作方式
有趣的是,上述文本将 "Toucan" 称为可以创建的"东西",这表明它可能是一种特定类型的 AI 生成视频创作,而不是通用的 AI 视频生成工具。这也暗示该应用将只能从文本输入生成 Toucan,而不能从静态图像或视频等其他输入创建。
每日限制的存在为 Google 提供了向 Gemini Advanced 付费用户提供不同体验的可能性,甚至可能允许购买额外生成次数的信用点数。AI 视频生成成本较高,目前市面上大多数可用选项,如 Kling 或 Hailuo AI,都采用付费订阅或按次付费的信用点数模式运营,通常在特定时期内允许少量免费生成。
Google 尚未正式宣布 Toucan 视频生成功能,因此我们需要等待看看它何时或是否会向用户发布。不过,持续开发的证据表明该功能很快就会推出。
好文章,需要你的鼓励
苹果发布新一轮Apple Intelligence更新,涵盖多项核心功能:Safari新增AI自动标签分组与页面变化监测;支持一键更新泄露密码;信息应用获得AI回复建议与自然语言照片检索;日历可用自然语言创建日程;电话应用可实时调取邮件等跨应用信息;快捷指令支持自然语言自动生成工作流;Image Playground升级图像编辑与写实生成能力;照片应用新增智能扩图与空间重构功能。
OVO-S-Bench是由清华、北航、上海AI实验室联合发布的流式空间智能测试集,包含348段视频、1680道题,考察AI在只能看已播放视频的条件下理解空间的能力,最强模型比人类低27分。
今天讲的出海案例是海能达,一家做专网无线通信设备的深圳公司,今年在中东、东南亚、非洲集中拿单交付,海外营收同比走高。
上海人工智能实验室提出ThoughtFold框架,通过内省式冗余识别与精准偏好学习,将AI推理链中的废话步骤"折叠"掉,在保持准确率的前提下将推理用词量减少约56%。