我使用ChatGPT已经有数年时间,但OpenAI最近的一些失误,加上越来越多的人转向Claude,让我开始关注这些竞争对手。我并不打算完全放弃这个我花费无数小时学习和熟练掌握的平台,仅仅因为其他人似乎在跳船。但我确实很好奇:哪个AI更好?
因此,我进行了一系列测试,比较ChatGPT和Claude在不同任务上的表现,这些任务都是人们(包括我自己)日常使用AI的场景。唯一的例外是编程。我不是程序员或开发人员,所以无法公平地评估那些结果。(ZDNET的David Gewirtz广泛测试AI工具的编程能力,可以查看他的推荐。)
测试数据依据和方法
我查看了相关数据来确定要进行哪些测试,包括2025年美联社-NORC对1,093名美国成年人进行的AI使用民调,Talker Research受三星委托在2025年末对2,000名成年人进行的关于人们如何在手机上使用AI的调查,以及OpenAI自己的"人们如何使用ChatGPT"研究,该研究显示2025年中期使用情况从工作转向了日常任务。
这是一个针对普通用户的简单比较。我只使用ChatGPT(GPT-5.3)和Claude(Sonnet 4.6和Haiku 4.5)的免费版本。这里没有复杂的内容——只是你可能现实中会给任一工具的那种提示。我在网页浏览器和手机应用中测试两个AI,并且没有使用Atlas或Claude Code等其他工具。
(声明:Ziff Davis,ZDNET的母公司,在2025年4月对OpenAI提起诉讼,指控其在训练和操作AI系统时侵犯了Ziff Davis的版权。)
Q&A
Q1:这次比较测试使用了哪些版本的AI模型?
A:测试使用的是免费版本的ChatGPT(GPT-5.3)和Claude(Sonnet 4.6和Haiku 4.5)。测试在网页浏览器和手机应用中进行,没有使用其他附加工具如Atlas或Claude Code。
Q2:为什么这次比较没有包含编程能力测试?
A:因为作者不是程序员或开发人员,无法公平地评估编程相关的结果。文章提到ZDNET的David Gewirtz专门测试AI工具的编程能力,可以参考他的推荐。
Q3:这次AI比较测试的依据是什么?
A:测试依据包括2025年美联社-NORC对1,093名美国成年人的AI使用民调、Talker Research受三星委托的2,000名成年人手机AI使用调查,以及OpenAI关于ChatGPT使用情况的研究,这些数据显示AI使用从工作场景转向日常任务。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
伊尔德兹技术大学团队通过词典手术和离线蒸馏,以不足20美元成本打造出专为土耳其语优化的200M参数句子嵌入模型,在语义相似度任务上超越了参数量更大的原版教师模型。