我使用ChatGPT已经有数年时间,但OpenAI最近的一些失误,加上越来越多的人转向Claude,让我开始关注这些竞争对手。我并不打算完全放弃这个我花费无数小时学习和熟练掌握的平台,仅仅因为其他人似乎在跳船。但我确实很好奇:哪个AI更好?
因此,我进行了一系列测试,比较ChatGPT和Claude在不同任务上的表现,这些任务都是人们(包括我自己)日常使用AI的场景。唯一的例外是编程。我不是程序员或开发人员,所以无法公平地评估那些结果。(ZDNET的David Gewirtz广泛测试AI工具的编程能力,可以查看他的推荐。)
测试数据依据和方法
我查看了相关数据来确定要进行哪些测试,包括2025年美联社-NORC对1,093名美国成年人进行的AI使用民调,Talker Research受三星委托在2025年末对2,000名成年人进行的关于人们如何在手机上使用AI的调查,以及OpenAI自己的"人们如何使用ChatGPT"研究,该研究显示2025年中期使用情况从工作转向了日常任务。
这是一个针对普通用户的简单比较。我只使用ChatGPT(GPT-5.3)和Claude(Sonnet 4.6和Haiku 4.5)的免费版本。这里没有复杂的内容——只是你可能现实中会给任一工具的那种提示。我在网页浏览器和手机应用中测试两个AI,并且没有使用Atlas或Claude Code等其他工具。
(声明:Ziff Davis,ZDNET的母公司,在2025年4月对OpenAI提起诉讼,指控其在训练和操作AI系统时侵犯了Ziff Davis的版权。)
Q&A
Q1:这次比较测试使用了哪些版本的AI模型?
A:测试使用的是免费版本的ChatGPT(GPT-5.3)和Claude(Sonnet 4.6和Haiku 4.5)。测试在网页浏览器和手机应用中进行,没有使用其他附加工具如Atlas或Claude Code。
Q2:为什么这次比较没有包含编程能力测试?
A:因为作者不是程序员或开发人员,无法公平地评估编程相关的结果。文章提到ZDNET的David Gewirtz专门测试AI工具的编程能力,可以参考他的推荐。
Q3:这次AI比较测试的依据是什么?
A:测试依据包括2025年美联社-NORC对1,093名美国成年人的AI使用民调、Talker Research受三星委托的2,000名成年人手机AI使用调查,以及OpenAI关于ChatGPT使用情况的研究,这些数据显示AI使用从工作场景转向日常任务。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。