近日,据 Android Authority 报道,Google 的 Gemini 聊天机器人很快将获得生成 AI 视频的能力,用户不仅可以通过文字描述生成图片,还能创建短视频。根据最新报告,我们了解到了这项即将发布的实验性功能的运作方式和可能的限制。
Android 应用研究者 AssembleDebug 发现,Android 平台上最新版本的 Google 应用中包含了新的代码引用,暗示了一个代号为 "Toucan" 的未发布 Gemini 视频生成功能。
代码中的进一步内容提供了几个关于该功能可能如何运作的线索,包括对某些用户可能会有每日视频生成数量限制的提示。代码还显示,每个视频的生成时间约为 "1-2 分钟",这意味着创建视频需要相当大的计算能力。
在 Google 应用代码中发现的相关文本字符串包括:
"使用 Toucan(Gemini 的新实验性生成模型)从文本获取高质量视频。只需描述你的想法,Toucan 每次都可以根据你的要求生成新的内容"
"正在创建你的 Toucan..."
"这可能需要 1-2 分钟"
"你已达到今天的 Toucan 生成限制,请明天再试"
Google 的 AI 视频生成器:可能的工作方式
有趣的是,上述文本将 "Toucan" 称为可以创建的"东西",这表明它可能是一种特定类型的 AI 生成视频创作,而不是通用的 AI 视频生成工具。这也暗示该应用将只能从文本输入生成 Toucan,而不能从静态图像或视频等其他输入创建。
每日限制的存在为 Google 提供了向 Gemini Advanced 付费用户提供不同体验的可能性,甚至可能允许购买额外生成次数的信用点数。AI 视频生成成本较高,目前市面上大多数可用选项,如 Kling 或 Hailuo AI,都采用付费订阅或按次付费的信用点数模式运营,通常在特定时期内允许少量免费生成。
Google 尚未正式宣布 Toucan 视频生成功能,因此我们需要等待看看它何时或是否会向用户发布。不过,持续开发的证据表明该功能很快就会推出。
好文章,需要你的鼓励
Docker公司通过增强的compose框架和新基础设施工具,将自己定位为AI智能体开发的核心编排平台。该平台在compose规范中新增"models"元素,允许开发者在同一YAML文件中定义AI智能体、大语言模型和工具。支持LangGraph、CrewAI等多个AI框架,提供Docker Offload服务访问NVIDIA L4 GPU,并与谷歌云、微软Azure建立合作。通过MCP网关提供企业级安全隔离,解决了企业AI项目从概念验证到生产部署的断层问题。
中科院联合字节跳动开发全新AI评测基准TreeBench,揭示当前最先进模型在复杂视觉推理上的重大缺陷。即使OpenAI o3也仅获得54.87%分数。研究团队同时提出TreeVGR训练方法,通过要求AI同时给出答案和精确定位,实现真正可追溯的视觉推理,为构建更透明可信的AI系统开辟新路径。
马斯克的AI女友"Ani"引爆全球,腾讯RLVER框架突破情感理解边界:AI下半场竞争核心已转向对人性的精准把握。当技术学会共情,虚拟陪伴不再停留于脚本应答,而是通过"心与心的循环"真正理解人类孤独——这背后是强化学习算法与思考模式的化学反应,让AI从解决问题转向拥抱情感。
PyVision是上海AI实验室开发的革命性视觉推理框架,让AI系统能够根据具体问题动态创造Python工具,而非依赖预设工具集。通过多轮交互机制,PyVision在多项基准测试中实现显著性能提升,其中在符号视觉任务上提升达31.1%。该框架展现了从"工具使用者"到"工具创造者"的AI能力跃迁,为通用人工智能的发展开辟了新路径。