我使用ChatGPT已经有数年时间,但OpenAI最近的一些失误,加上越来越多的人转向Claude,让我开始关注这些竞争对手。我并不打算完全放弃这个我花费无数小时学习和熟练掌握的平台,仅仅因为其他人似乎在跳船。但我确实很好奇:哪个AI更好?
因此,我进行了一系列测试,比较ChatGPT和Claude在不同任务上的表现,这些任务都是人们(包括我自己)日常使用AI的场景。唯一的例外是编程。我不是程序员或开发人员,所以无法公平地评估那些结果。(ZDNET的David Gewirtz广泛测试AI工具的编程能力,可以查看他的推荐。)
测试数据依据和方法
我查看了相关数据来确定要进行哪些测试,包括2025年美联社-NORC对1,093名美国成年人进行的AI使用民调,Talker Research受三星委托在2025年末对2,000名成年人进行的关于人们如何在手机上使用AI的调查,以及OpenAI自己的"人们如何使用ChatGPT"研究,该研究显示2025年中期使用情况从工作转向了日常任务。
这是一个针对普通用户的简单比较。我只使用ChatGPT(GPT-5.3)和Claude(Sonnet 4.6和Haiku 4.5)的免费版本。这里没有复杂的内容——只是你可能现实中会给任一工具的那种提示。我在网页浏览器和手机应用中测试两个AI,并且没有使用Atlas或Claude Code等其他工具。
(声明:Ziff Davis,ZDNET的母公司,在2025年4月对OpenAI提起诉讼,指控其在训练和操作AI系统时侵犯了Ziff Davis的版权。)
Q&A
Q1:这次比较测试使用了哪些版本的AI模型?
A:测试使用的是免费版本的ChatGPT(GPT-5.3)和Claude(Sonnet 4.6和Haiku 4.5)。测试在网页浏览器和手机应用中进行,没有使用其他附加工具如Atlas或Claude Code。
Q2:为什么这次比较没有包含编程能力测试?
A:因为作者不是程序员或开发人员,无法公平地评估编程相关的结果。文章提到ZDNET的David Gewirtz专门测试AI工具的编程能力,可以参考他的推荐。
Q3:这次AI比较测试的依据是什么?
A:测试依据包括2025年美联社-NORC对1,093名美国成年人的AI使用民调、Talker Research受三星委托的2,000名成年人手机AI使用调查,以及OpenAI关于ChatGPT使用情况的研究,这些数据显示AI使用从工作场景转向日常任务。
好文章,需要你的鼓励
牛津大学提出PHYSIFORMER,一种扩散变换器模型,通过三维网格顶点轨迹直接在世界坐标空间预测刚性与弹性物体的物理运动,一次性生成全序列轨迹,超越自回归基线。
随着医疗数据数字化与互操作性的进步,跨机构纵向患者数据的研究应用成为可能。本研究通过对20位领域专家的访谈,识别出8种数据收集方法,涵盖智能手机应用、结构化数据导出、区域/全国研究查询及聚合数据源等。研究发现,各方法均有其优缺点,无单一最优方案。参与者中介交换方式可绕过复杂治理安排,但存在数据缺口;全国性网络尚不支持研究查询。公共政策的持续推进将对该领域发展起关键作用。
研究发现主流奖励模型对同等质量答案给出差异悬殊的分数,并提出"奖励聚类"算法通过蒙特卡洛随机失活将连续分数离散化,在不重训模型的前提下有效减少AI训练中的奖励作弊现象。