AI在理解文本和图像方面表现出色,但视频呢?主流AI工具究竟能不能真正"看懂"一段视频?带着这个问题,笔者对ChatGPT、Claude和Gemini进行了系统测试,结果颇为出人意料。
测试设计
笔者为三款AI准备了三段视频:第一段是发布在YouTube上的关于金属退火科学原理的讲解视频;第二段是DJI Neo 2无人机的动作测试视频,全程无音频,仅有手势操控画面,格式为MP4;第三段是一段关于YouTube发布策略的边走边聊视频,使用的是原始MOV本地文件,而非YouTube上传版本,目的是排除平台提供的元数据和字幕干扰。
测试使用的是各平台付费订阅版本,包括每月20美元的ChatGPT Plus、每月20美元的Gemini Pro,以及每月100美元的Claude Max。
输入的提示词统一为"你能看这段视频吗?"。测试发现,使用"看"这个词比"理解"或"总结"效果更好,因为后两者会让AI去搜索元数据,而非真正分析视频内容。
Claude:直接出局
Claude的结果毫无悬念。无论是桌面应用还是网页端,Claude明确表示无法处理视频或音频内容,不支持YouTube链接、MP4文件或MOV文件。对于需要视频分析能力的用户而言,Claude在这一环节完全失效。
Gemini:表现最为出色
Gemini的表现令人印象深刻。无论是YouTube链接、625MB的MP4文件,还是高达1.65GB的MOV文件,Gemini均可直接在浏览器中处理,无需额外工具。
最值得一提的是无人机测试视频。该视频没有任何音频,画面中只有笔者在镜头前做手势。Gemini准确识别出:画面中的人正在测试手势操控,通过向镜头抬起手掌来引导无人机改变角度和距离,最终将无人机引导回屋子方向。要知道,无人机本身并未出现在画面中,而Gemini仅凭视觉帧就推断出了这是一场无人机测试,这一能力相当惊人。
对于退火讲解视频,Gemini能够识别章节结构,并准确复述视频中的关键观点。对于边走边聊视频,它不仅识别出拍摄地点,还梳理出了视频各段落的内容要点,并为每个关键时间节点生成了可点击的时间戳。
不过,Gemini在缩略图生成环节表现欠佳。笔者要求其基于视频内容创建一张YouTube缩略图,但Gemini调用Nano Banana图像模型生成的图片中,凭空出现了一个留胡子的陌生男性,而非笔者本人,并且还将"FIRE"错误拼写为"FCIRE"。
ChatGPT + Codex:组合出击,各有短板
ChatGPT单独测试时表现不佳。它无法读取YouTube链接,且视频文件大小须在500MB以内,两段本地视频均超出限制。
但将ChatGPT与OpenAI的智能体工具Codex配合使用后,情况大为改观。Codex能够处理本地视频文件,在无法直接解析时,会主动申请安装Python脚本和相关库来实现音频转录。面对YouTube视频,Codex还会自动编写下载脚本,将视频下载到本地后再进行分析。
在缩略图生成方面,Codex负责从视频中选取最佳帧并撰写提示词,再由ChatGPT完成图像生成。最终结果比Gemini更为准确:使用了笔者本人的照片,延续了原有的黑白黄配色方案。经过两轮提示词修正,最终生成的图像基本符合预期,但整个操作流程较为繁琐,需要在两个工具之间手动传递信息。
综合评估
在视频理解能力方面,Gemini是当前最佳选择,操作便捷,理解准确,支持多种格式,且能生成时间戳摘要。ChatGPT与Codex的组合虽然可行,但流程复杂,更适合有技术背景的用户。Claude在此项测试中完全不具备视频分析能力。
值得注意的是,两款能力较强的AI工具均能在两三分钟内完成对时长约15分钟视频的解析,效率远超实时播放。
视频分析能力的潜在应用场景包括:快速提取长视频的核心观点、扫描监控录像定位特定行为、辅助创作者生成YouTube缩略图等。对于内容创作者而言,AI视频分析正在成为一项实用的新工具。
Q&A
Q1:Gemini支持哪些视频格式?有没有大小限制?
A:根据测试,Gemini可以直接在浏览器中处理YouTube链接、MP4格式和MOV格式的视频文件,测试中625MB的MP4文件和1.65GB的MOV文件均能正常处理,表现出较强的格式兼容性和文件大小承载能力,无需安装额外工具或插件。
Q2:ChatGPT能直接看视频吗?为什么要搭配Codex使用?
A:ChatGPT单独使用时存在明显限制:无法读取YouTube链接,且本地视频文件必须在500MB以内。搭配Codex使用后,可突破这些限制。Codex能自动编写Python脚本处理超大文件,或将YouTube视频下载到本地再分析,但整个流程需要用户在两个工具之间手动操作,便捷性不如Gemini。
Q3:AI生成的YouTube缩略图质量怎么样?能直接用吗?
A:目前AI生成缩略图的质量参差不齐。Gemini生成的图片出现了错误人物和拼写错误;ChatGPT与Codex组合的结果更接近原始风格,经过两轮修正后基本可用,但细节仍有偏差。总体而言,AI缩略图可作为创作参考或初稿,若追求精准还原个人风格,仍建议手动制作。
好文章,需要你的鼓励
FORTIS是专门测量AI代理"越权行为"的基准测试,研究发现十款顶尖模型普遍选择远超任务需要的高权限技能,端到端成功率最高仅14.3%。
谷歌在Android Show发布会上宣布,将Gemini更深度整合至Android系统,推出名为"Gemini Intelligence"的升级功能。该功能可跨应用处理日常任务,包括自动填写表单、安排日程、生成购物清单及自定义小组件等,无需用户频繁切换应用。此外,Gboard新增"Rambler"功能,可自动过滤语音输入中的口误和填充词。Gemini Intelligence将率先登陆三星Galaxy和谷歌Pixel手机,并支持Android Auto、Wear OS及智能眼镜。
荷兰Nebius团队提出SlimSpec,通过低秩分解压缩草稿模型LM-Head的内部表示而非裁剪词汇,在保留完整词汇表的同时将LM-Head计算时间压缩至原来的五分之一,端到端推理速度超越现有方法最高达9%。