我测试了Gemini、ChatGPT和Claude的视频分析能力,谁是最终赢家?

本文对Gemini、ChatGPT和Claude三款主流AI的视频理解能力进行实测。测试素材包括YouTube链接、MP4及MOV本地文件。结果显示:Claude完全不支持视频处理;Gemini表现最佳,可直接在浏览器中解析各类视频格式,甚至能理解无音频的无人机手势控制视频;ChatGPT需配合Codex工具才能实现类似功能,操作较繁琐。在生成YouTube缩略图方面,ChatGPT+Codex组合优于Gemini,但均有不足。

AI在理解文本和图像方面表现出色,但视频呢?主流AI工具究竟能不能真正"看懂"一段视频?带着这个问题,笔者对ChatGPT、Claude和Gemini进行了系统测试,结果颇为出人意料。

测试设计

笔者为三款AI准备了三段视频:第一段是发布在YouTube上的关于金属退火科学原理的讲解视频;第二段是DJI Neo 2无人机的动作测试视频,全程无音频,仅有手势操控画面,格式为MP4;第三段是一段关于YouTube发布策略的边走边聊视频,使用的是原始MOV本地文件,而非YouTube上传版本,目的是排除平台提供的元数据和字幕干扰。

测试使用的是各平台付费订阅版本,包括每月20美元的ChatGPT Plus、每月20美元的Gemini Pro,以及每月100美元的Claude Max。

输入的提示词统一为"你能看这段视频吗?"。测试发现,使用"看"这个词比"理解"或"总结"效果更好,因为后两者会让AI去搜索元数据,而非真正分析视频内容。

Claude:直接出局

Claude的结果毫无悬念。无论是桌面应用还是网页端,Claude明确表示无法处理视频或音频内容,不支持YouTube链接、MP4文件或MOV文件。对于需要视频分析能力的用户而言,Claude在这一环节完全失效。

Gemini:表现最为出色

Gemini的表现令人印象深刻。无论是YouTube链接、625MB的MP4文件,还是高达1.65GB的MOV文件,Gemini均可直接在浏览器中处理,无需额外工具。

最值得一提的是无人机测试视频。该视频没有任何音频,画面中只有笔者在镜头前做手势。Gemini准确识别出:画面中的人正在测试手势操控,通过向镜头抬起手掌来引导无人机改变角度和距离,最终将无人机引导回屋子方向。要知道,无人机本身并未出现在画面中,而Gemini仅凭视觉帧就推断出了这是一场无人机测试,这一能力相当惊人。

对于退火讲解视频,Gemini能够识别章节结构,并准确复述视频中的关键观点。对于边走边聊视频,它不仅识别出拍摄地点,还梳理出了视频各段落的内容要点,并为每个关键时间节点生成了可点击的时间戳。

不过,Gemini在缩略图生成环节表现欠佳。笔者要求其基于视频内容创建一张YouTube缩略图,但Gemini调用Nano Banana图像模型生成的图片中,凭空出现了一个留胡子的陌生男性,而非笔者本人,并且还将"FIRE"错误拼写为"FCIRE"。

ChatGPT + Codex:组合出击,各有短板

ChatGPT单独测试时表现不佳。它无法读取YouTube链接,且视频文件大小须在500MB以内,两段本地视频均超出限制。

但将ChatGPT与OpenAI的智能体工具Codex配合使用后,情况大为改观。Codex能够处理本地视频文件,在无法直接解析时,会主动申请安装Python脚本和相关库来实现音频转录。面对YouTube视频,Codex还会自动编写下载脚本,将视频下载到本地后再进行分析。

在缩略图生成方面,Codex负责从视频中选取最佳帧并撰写提示词,再由ChatGPT完成图像生成。最终结果比Gemini更为准确:使用了笔者本人的照片,延续了原有的黑白黄配色方案。经过两轮提示词修正,最终生成的图像基本符合预期,但整个操作流程较为繁琐,需要在两个工具之间手动传递信息。

综合评估

在视频理解能力方面,Gemini是当前最佳选择,操作便捷,理解准确,支持多种格式,且能生成时间戳摘要。ChatGPT与Codex的组合虽然可行,但流程复杂,更适合有技术背景的用户。Claude在此项测试中完全不具备视频分析能力。

值得注意的是,两款能力较强的AI工具均能在两三分钟内完成对时长约15分钟视频的解析,效率远超实时播放。

视频分析能力的潜在应用场景包括:快速提取长视频的核心观点、扫描监控录像定位特定行为、辅助创作者生成YouTube缩略图等。对于内容创作者而言,AI视频分析正在成为一项实用的新工具。

Q&A

Q1:Gemini支持哪些视频格式?有没有大小限制?

A:根据测试,Gemini可以直接在浏览器中处理YouTube链接、MP4格式和MOV格式的视频文件,测试中625MB的MP4文件和1.65GB的MOV文件均能正常处理,表现出较强的格式兼容性和文件大小承载能力,无需安装额外工具或插件。

Q2:ChatGPT能直接看视频吗?为什么要搭配Codex使用?

A:ChatGPT单独使用时存在明显限制:无法读取YouTube链接,且本地视频文件必须在500MB以内。搭配Codex使用后,可突破这些限制。Codex能自动编写Python脚本处理超大文件,或将YouTube视频下载到本地再分析,但整个流程需要用户在两个工具之间手动操作,便捷性不如Gemini。

Q3:AI生成的YouTube缩略图质量怎么样?能直接用吗?

A:目前AI生成缩略图的质量参差不齐。Gemini生成的图片出现了错误人物和拼写错误;ChatGPT与Codex组合的结果更接近原始风格,经过两轮修正后基本可用,但细节仍有偏差。总体而言,AI缩略图可作为创作参考或初稿,若追求精准还原个人风格,仍建议手动制作。

来源:ZDNET

0赞

好文章,需要你的鼓励

2026

05/14

15:49

分享

点赞

邮件订阅