AI在理解文本和图像方面表现出色,但视频呢?主流AI工具究竟能不能真正"看懂"一段视频?带着这个问题,笔者对ChatGPT、Claude和Gemini进行了系统测试,结果颇为出人意料。
测试设计
笔者为三款AI准备了三段视频:第一段是发布在YouTube上的关于金属退火科学原理的讲解视频;第二段是DJI Neo 2无人机的动作测试视频,全程无音频,仅有手势操控画面,格式为MP4;第三段是一段关于YouTube发布策略的边走边聊视频,使用的是原始MOV本地文件,而非YouTube上传版本,目的是排除平台提供的元数据和字幕干扰。
测试使用的是各平台付费订阅版本,包括每月20美元的ChatGPT Plus、每月20美元的Gemini Pro,以及每月100美元的Claude Max。
输入的提示词统一为"你能看这段视频吗?"。测试发现,使用"看"这个词比"理解"或"总结"效果更好,因为后两者会让AI去搜索元数据,而非真正分析视频内容。
Claude:直接出局
Claude的结果毫无悬念。无论是桌面应用还是网页端,Claude明确表示无法处理视频或音频内容,不支持YouTube链接、MP4文件或MOV文件。对于需要视频分析能力的用户而言,Claude在这一环节完全失效。
Gemini:表现最为出色
Gemini的表现令人印象深刻。无论是YouTube链接、625MB的MP4文件,还是高达1.65GB的MOV文件,Gemini均可直接在浏览器中处理,无需额外工具。
最值得一提的是无人机测试视频。该视频没有任何音频,画面中只有笔者在镜头前做手势。Gemini准确识别出:画面中的人正在测试手势操控,通过向镜头抬起手掌来引导无人机改变角度和距离,最终将无人机引导回屋子方向。要知道,无人机本身并未出现在画面中,而Gemini仅凭视觉帧就推断出了这是一场无人机测试,这一能力相当惊人。
对于退火讲解视频,Gemini能够识别章节结构,并准确复述视频中的关键观点。对于边走边聊视频,它不仅识别出拍摄地点,还梳理出了视频各段落的内容要点,并为每个关键时间节点生成了可点击的时间戳。
不过,Gemini在缩略图生成环节表现欠佳。笔者要求其基于视频内容创建一张YouTube缩略图,但Gemini调用Nano Banana图像模型生成的图片中,凭空出现了一个留胡子的陌生男性,而非笔者本人,并且还将"FIRE"错误拼写为"FCIRE"。
ChatGPT + Codex:组合出击,各有短板
ChatGPT单独测试时表现不佳。它无法读取YouTube链接,且视频文件大小须在500MB以内,两段本地视频均超出限制。
但将ChatGPT与OpenAI的智能体工具Codex配合使用后,情况大为改观。Codex能够处理本地视频文件,在无法直接解析时,会主动申请安装Python脚本和相关库来实现音频转录。面对YouTube视频,Codex还会自动编写下载脚本,将视频下载到本地后再进行分析。
在缩略图生成方面,Codex负责从视频中选取最佳帧并撰写提示词,再由ChatGPT完成图像生成。最终结果比Gemini更为准确:使用了笔者本人的照片,延续了原有的黑白黄配色方案。经过两轮提示词修正,最终生成的图像基本符合预期,但整个操作流程较为繁琐,需要在两个工具之间手动传递信息。
综合评估
在视频理解能力方面,Gemini是当前最佳选择,操作便捷,理解准确,支持多种格式,且能生成时间戳摘要。ChatGPT与Codex的组合虽然可行,但流程复杂,更适合有技术背景的用户。Claude在此项测试中完全不具备视频分析能力。
值得注意的是,两款能力较强的AI工具均能在两三分钟内完成对时长约15分钟视频的解析,效率远超实时播放。
视频分析能力的潜在应用场景包括:快速提取长视频的核心观点、扫描监控录像定位特定行为、辅助创作者生成YouTube缩略图等。对于内容创作者而言,AI视频分析正在成为一项实用的新工具。
Q&A
Q1:Gemini支持哪些视频格式?有没有大小限制?
A:根据测试,Gemini可以直接在浏览器中处理YouTube链接、MP4格式和MOV格式的视频文件,测试中625MB的MP4文件和1.65GB的MOV文件均能正常处理,表现出较强的格式兼容性和文件大小承载能力,无需安装额外工具或插件。
Q2:ChatGPT能直接看视频吗?为什么要搭配Codex使用?
A:ChatGPT单独使用时存在明显限制:无法读取YouTube链接,且本地视频文件必须在500MB以内。搭配Codex使用后,可突破这些限制。Codex能自动编写Python脚本处理超大文件,或将YouTube视频下载到本地再分析,但整个流程需要用户在两个工具之间手动操作,便捷性不如Gemini。
Q3:AI生成的YouTube缩略图质量怎么样?能直接用吗?
A:目前AI生成缩略图的质量参差不齐。Gemini生成的图片出现了错误人物和拼写错误;ChatGPT与Codex组合的结果更接近原始风格,经过两轮修正后基本可用,但细节仍有偏差。总体而言,AI缩略图可作为创作参考或初稿,若追求精准还原个人风格,仍建议手动制作。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。