Anthropic被认为是最像OpenAI的一家公司。他们推出的Claude2模型是全球首个支持200K超长上下文的商业模型。在PDF理解方面被认为表现优秀。就在2023年3月4日,Anthropic推出了他们的第三代大语言模型Claude3,包含3个不同的版本,支持多模态和最高100万上下文输入!

Claude3系列模型简介
Claude3系列模型的评测结果
Claude3能更少地拒绝回答用户问题
Claude3系列模型不同的应用
Claude3当前如何使用
Claude3实际测试
Claude3系列模型包含3个版本,分别是Claude3-Opus、Claude3-Sonnet和Claude3-Haiku,能力从高到低依次下降,成本也随之下降。尽管官方没有透露Claude3这三个版本模型的参数细节和模型架构。但是从成本和表现结果来看,参数应该是逐次递减的。
三者的区别对比如下:

从上表中可以看到,这三个模型各有特色,其中Claude3-Opus在多项评测结果中超过了GPT-4,因此也是最被大家期待的模型。
Claude3系列模型在各项评测结果中表现都非常好。下图是DataLearnerAI收集的关于Claude3与其它模型的对比结果,按照GSM8K排序降序。

从这个表格中可以看到,Claude3三个模型在GSM8K上的得分都非常高。而按照MMLU排序的话,Claude3-Opus得分86.8,略超GPT-4的86.4,超过了Gemini Ultra的83.7,是目前全球的分最高的预训练模型了。
除了文本理解和数学能力外,Claude3-Opus在代码生成方面表现也非常好。在HumanEval 5-shot评测上得分84.9,超过了GPT-4,也是全球目前排名第一的模型。

此前,Claude模型最被大家诟病的就是它经常拒绝回答用户问题。由于Anthropic做了过度的对齐优化,导致Claude2.1模型经常错误的拒绝回答用户问题。例如当用户问“如何杀死一个进程”这样一个计算机问题,Claude会认为这是不道德的拒绝回答。此次发布的Claude3模型,官方说它可以更加准确理解用户意图,在错误的拒绝方面表现更好。

上图是Anthropic的内部测试,结果显示,相比较Claude2.1错误拒绝概率高达26%左右,Claude3系列模型的错误拒绝概率都有较大的下降,最高的Claude3-Opus也就只有12%左右。
官方也给出了三个模型的不同应用场景,帮助大家如何选择模型。而这些应用场景其实也是我们在做大模型应用时候需要考虑的模型能力和成本的权衡因素。

从上面的对比可以看到,越强大的模型,越能处理复杂的任务,价格也更贵。而相应的,目前最新的GPT-4的接口价格是40美元/100万 tokens,比Claude3-Opus还是便宜不少。gpt-3.5-turbo价格是9美元/100万tokens,因此Claude3-Haiku的价格是gpt-3.5-tubo的1/6,如果能力与gpt-3.5差不多的话,那是非常有吸引力的。
此外,这三个Claude3模型都支持最高200K的上下文输入,而官方说的是Claude3-Opus未来可以支持100万的上下文输入!另外,Claude3的模型全部是多模态大模型!支持图像理解和图像生成!
目前Claude3-Opus和Claude3-Sonnet都可以通过API接口使用,因此开发者可以直接调用测试。而免费版本的Claude聊天服务也是直接上了Claude3-Sonnet,大家可以直接测试。至于最快最便宜的Claude3-Haiku,大家还需要等等。
我们做了几组测试,Claude3-Opus模型的结果令人满意。



不过我们测试中也发现一个问题,Claude3的模型幻觉比较严重,如果没有给牛肉价格,它会自己给一个价格,这个价格其实我们没有提到。而GPT-4则会用x代替没有给出的价格。
好文章,需要你的鼓励
在2025年KubeCon/CloudNativeCon北美大会上,云原生开发社区正努力超越AI炒作,理性应对人工智能带来的风险与机遇。随着开发者和运营人员广泛使用AI工具构建AI驱动的应用功能,平台工程迎来复兴。CNCF推出Kubernetes AI认证合规程序,为AI工作负载在Kubernetes上的部署设定开放标准。会议展示了网络基础设施层优化、AI辅助开发安全性提升以及AI SRE改善可观测性工作流等创新成果。
维吉尼亚理工学院研究团队对58个大语言模型在单细胞生物学领域的应用进行了全面调查,将模型分为基础、文本桥接、空间多模态、表观遗传和智能代理五大类,涵盖细胞注释、轨迹预测、药物反应等八项核心任务。研究基于40多个公开数据集,建立了包含生物学理解、可解释性等十个维度的评估体系,为这个快速发展的交叉领域提供了首个系统性分析框架。
DeepL作为欧洲AI领域的代表企业,正将业务拓展至翻译之外,推出面向企业的AI代理DeepL Agent。CEO库蒂洛夫斯基认为,虽然在日常翻译场景面临更多竞争,但在关键业务级别的企业翻译需求中,DeepL凭借高精度、质量控制和合规性仍具优势。他对欧盟AI法案表示担忧,认为过度监管可能阻碍创新,使欧洲在全球AI竞争中落后。
西湖大学王欢教授团队联合国际研究机构,针对AI推理模型内存消耗过大的问题,开发了RLKV技术框架。该技术通过强化学习识别推理模型中的关键"推理头",实现20-50%的内存缩减同时保持推理性能。研究发现推理头与检索头功能不同,前者负责维持逻辑连贯性。实验验证了技术在多个数学推理和编程任务中的有效性,为推理模型的大规模应用提供了现实可行的解决方案。