我测试了Gemini、ChatGPT和Claude的视频分析能力，谁是最终赢家？

本文对Gemini、ChatGPT和Claude三款主流AI的视频理解能力进行实测。测试素材包括YouTube链接、MP4及MOV本地文件。结果显示：Claude完全不支持视频处理；Gemini表现最佳，可直接在浏览器中解析各类视频格式，甚至能理解无音频的无人机手势控制视频；ChatGPT需配合Codex工具才能实现类似功能，操作较繁琐。在生成YouTube缩略图方面，ChatGPT+Codex组合优于Gemini，但均有不足。

AI在理解文本和图像方面表现出色，但视频呢？主流AI工具究竟能不能真正"看懂"一段视频？带着这个问题，笔者对ChatGPT、Claude和Gemini进行了系统测试，结果颇为出人意料。

测试设计

笔者为三款AI准备了三段视频：第一段是发布在YouTube上的关于金属退火科学原理的讲解视频；第二段是DJI Neo 2无人机的动作测试视频，全程无音频，仅有手势操控画面，格式为MP4；第三段是一段关于YouTube发布策略的边走边聊视频，使用的是原始MOV本地文件，而非YouTube上传版本，目的是排除平台提供的元数据和字幕干扰。

测试使用的是各平台付费订阅版本，包括每月20美元的ChatGPT Plus、每月20美元的Gemini Pro，以及每月100美元的Claude Max。

输入的提示词统一为"你能看这段视频吗？"。测试发现，使用"看"这个词比"理解"或"总结"效果更好，因为后两者会让AI去搜索元数据，而非真正分析视频内容。

Claude：直接出局

Claude的结果毫无悬念。无论是桌面应用还是网页端，Claude明确表示无法处理视频或音频内容，不支持YouTube链接、MP4文件或MOV文件。对于需要视频分析能力的用户而言，Claude在这一环节完全失效。

Gemini：表现最为出色

Gemini的表现令人印象深刻。无论是YouTube链接、625MB的MP4文件，还是高达1.65GB的MOV文件，Gemini均可直接在浏览器中处理，无需额外工具。

最值得一提的是无人机测试视频。该视频没有任何音频，画面中只有笔者在镜头前做手势。Gemini准确识别出：画面中的人正在测试手势操控，通过向镜头抬起手掌来引导无人机改变角度和距离，最终将无人机引导回屋子方向。要知道，无人机本身并未出现在画面中，而Gemini仅凭视觉帧就推断出了这是一场无人机测试，这一能力相当惊人。

对于退火讲解视频，Gemini能够识别章节结构，并准确复述视频中的关键观点。对于边走边聊视频，它不仅识别出拍摄地点，还梳理出了视频各段落的内容要点，并为每个关键时间节点生成了可点击的时间戳。

不过，Gemini在缩略图生成环节表现欠佳。笔者要求其基于视频内容创建一张YouTube缩略图，但Gemini调用Nano Banana图像模型生成的图片中，凭空出现了一个留胡子的陌生男性，而非笔者本人，并且还将"FIRE"错误拼写为"FCIRE"。

ChatGPT + Codex：组合出击，各有短板

ChatGPT单独测试时表现不佳。它无法读取YouTube链接，且视频文件大小须在500MB以内，两段本地视频均超出限制。

但将ChatGPT与OpenAI的智能体工具Codex配合使用后，情况大为改观。Codex能够处理本地视频文件，在无法直接解析时，会主动申请安装Python脚本和相关库来实现音频转录。面对YouTube视频，Codex还会自动编写下载脚本，将视频下载到本地后再进行分析。

在缩略图生成方面，Codex负责从视频中选取最佳帧并撰写提示词，再由ChatGPT完成图像生成。最终结果比Gemini更为准确：使用了笔者本人的照片，延续了原有的黑白黄配色方案。经过两轮提示词修正，最终生成的图像基本符合预期，但整个操作流程较为繁琐，需要在两个工具之间手动传递信息。

综合评估

在视频理解能力方面，Gemini是当前最佳选择，操作便捷，理解准确，支持多种格式，且能生成时间戳摘要。ChatGPT与Codex的组合虽然可行，但流程复杂，更适合有技术背景的用户。Claude在此项测试中完全不具备视频分析能力。

值得注意的是，两款能力较强的AI工具均能在两三分钟内完成对时长约15分钟视频的解析，效率远超实时播放。

视频分析能力的潜在应用场景包括：快速提取长视频的核心观点、扫描监控录像定位特定行为、辅助创作者生成YouTube缩略图等。对于内容创作者而言，AI视频分析正在成为一项实用的新工具。

Q&A

Q1：Gemini支持哪些视频格式？有没有大小限制？

A：根据测试，Gemini可以直接在浏览器中处理YouTube链接、MP4格式和MOV格式的视频文件，测试中625MB的MP4文件和1.65GB的MOV文件均能正常处理，表现出较强的格式兼容性和文件大小承载能力，无需安装额外工具或插件。

Q2：ChatGPT能直接看视频吗？为什么要搭配Codex使用？

A：ChatGPT单独使用时存在明显限制：无法读取YouTube链接，且本地视频文件必须在500MB以内。搭配Codex使用后，可突破这些限制。Codex能自动编写Python脚本处理超大文件，或将YouTube视频下载到本地再分析，但整个流程需要用户在两个工具之间手动操作，便捷性不如Gemini。

Q3：AI生成的YouTube缩略图质量怎么样？能直接用吗？

A：目前AI生成缩略图的质量参差不齐。Gemini生成的图片出现了错误人物和拼写错误；ChatGPT与Codex组合的结果更接近原始风格，经过两轮修正后基本可用，但细节仍有偏差。总体而言，AI缩略图可作为创作参考或初稿，若追求精准还原个人风格，仍建议手动制作。

来源：ZDNET

0赞

好文章，需要你的鼓励

我测试了Gemini、ChatGPT和Claude的视频分析能力，谁是最终赢家？

来源：ZDNET

2026

05/14

15:49

分享

点赞

Bookshop.org确认今年将推出Kobo电子书阅读器支持

WeWard新增"步行模式"：走够步数才能解锁应用

X将通过私信通知用户其互动帖子被社区笔记纠错

"慢社交"应用Roost：让消息像真鸟一样飞行

Truecaller与印度电信监管机构就反垃圾电话规则展开公开交锋

Block与46州达成4500万美元和解，涉Cash App欺诈纠纷

欧盟威胁对Meta开出罚款，剑指Facebook和Instagram上瘾性设计

Disney+考虑推出免费流媒体内容层级

HyperTexting：将开放网络变成类社交媒体信息流的新应用

TV Time关闭之际，创始人打造新追剧应用Bingers

Telegram短链域名t.me因制裁合规问题短暂下线后已恢复

Apple芯片现不可修复漏洞，或成iPhone越狱突破口

PCIe 8.0标准首个草案发布，为AI与高性能计算提速

大规模核反应堆与小型模块化反应堆建设提速，AI数据中心需求成关键驱动力

OpenAI斥资40亿美元成立专业服务子公司，布局企业AI落地市场

美国银行携手AWS推进AI转型与关键应用迁移

HPE推出新型企业级内存服务器，专为智能体AI工作负载设计

Gemini Android覆盖层新增类似"Circle to Search"功能

如何用AI规划一次真正符合你心意的露营之旅

AI需求驱动美国科技岗位招聘回暖，职位发布量创三年新高

Google Home迎来新更新：Gemini提速，"Ask Home"支持语音指令

未来游戏中的AI队友真的会听你说话

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: