从 Google 这样的科技巨头到 OpenAI 和 Anthropic 这样的初创公司,AI 模型的推出速度令人目不暇接。要跟踪最新的模型developments确实令人应接不暇。
雪上加霜的是,AI 模型通常基于行业基准进行推广。但这些技术指标往往无法真实反映普通用户和企业实际如何使用它们。
为了梳理这些信息,TechCrunch 整理了一份自 2024 年以来发布的最先进 AI 模型概览,详细介绍了它们的使用方法和最佳应用场景。我们也会持续更新这个列表,收录最新发布的模型。
目前已有超过一百万个 AI 模型:例如,Hugging Face 就托管了超过 140 万个模型。因此这个列表可能会遗漏一些在某些方面表现更好的模型。
2025 年发布的 AI 模型
Claude Sonnet 3.7 Anthropic 称这是业界首个"混合"推理模型,因为它既能快速回答问题,也能在需要时深入思考。用户还可以控制模型的思考时间。所有 Claude 用户都可以使用 Sonnet 3.7,但重度用户需要订阅每月 20 美元的 Pro 计划。
xAI 的 Grok 3 Grok 3 是 Elon Musk 创立的初创公司 xAI 最新的旗舰模型。据称在数学、科学和编程方面的表现优于其他领先模型。使用该模型需要订阅 X Premium (每月 50 美元)。在一项研究发现 Grok 2 倾向左派后,Musk 承诺让 Grok 更加"政治中立",但目前尚不清楚是否达到这一目标。
OpenAI o3-mini 这是 OpenAI 最新的推理模型,针对编程、数学和科学等 STEM 相关任务进行了优化。虽然不是 OpenAI 最强大的模型,但由于体积较小,公司表示成本显著降低。免费用户可以使用,但重度用户需要订阅。
OpenAI Deep Research OpenAI 的 Deep Research 专门用于对特定主题进行深入研究,并提供明确的引用。此服务仅对订阅每月 200 美元 ChatGPT Pro 的用户开放。OpenAI 建议将其用于从科学到购物研究的各种场景,但需注意 AI 的幻觉问题仍然存在。
Mistral Le Chat Mistral 推出了 Le Chat 的应用版本,这是一款多模态 AI 个人助手。Mistral 声称 Le Chat 的响应速度比其他聊天机器人更快。它还有一个付费版本,提供来自 AFP 的最新新闻。Le Monde 的测试发现 Le Chat 的表现令人印象深刻,但错误率高于 ChatGPT。
OpenAI Operator OpenAI 的 Operator 旨在成为一个能独立工作的个人助理,比如帮你购买杂货。需要订阅每月 200 美元的 ChatGPT Pro。AI 代理很有前景,但仍处于实验阶段:华盛顿邮报的评测者表示,Operator 自作主张用评测者的信用卡订购了一打 31 美元的鸡蛋。
Google Gemini 2.0 Pro Experimental 备受期待的 Google Gemini 旗舰模型据称在编程和通用知识理解方面表现出色。它拥有 200 万 token 的超长上下文窗口,有助于用户快速处理大量文本。使用该服务至少需要订阅每月 19.99 美元的 Google One AI Premium。
2024 年发布的 AI 模型
DeepSeek R1 这个中国 AI 模型在硅谷掀起了轩然大波。DeepSeek 的 R1 在编程和数学方面表现出色,其开源特性意味着任何人都可以在本地运行。而且它是免费的。然而,R1 集成了中国政府的审查机制,且因可能将用户数据发回中国而面临越来越多的禁令。
Gemini Deep Research Deep Research 以简单且有引用的文档形式汇总 Google 的搜索结果。这项服务对学生和需要快速研究总结的人很有帮助。但其质量远不如实际的同行评议论文。Deep Research 需要订阅每月 19.99 美元的 Google One AI Premium。
Meta Llama 3.3 70B 这是 Meta 开源 Llama AI 模型的最新最先进版本。Meta 称这个版本是其最经济高效的版本,尤其是在数学、通用知识和遵循指令方面。它是免费和开源的。
OpenAI Sora Sora 是一个基于文本创建真实视频的模型。虽然它可以生成完整场景而不仅仅是片段,但 OpenAI 承认它经常生成"不符合物理规律的内容"。目前仅适用于 ChatGPT 的付费版本,从每月 20 美元的 Plus 版本开始。
阿里巴巴 Qwen QwQ-32B-Preview 这个模型是少数几个在某些行业基准测试中可以与 OpenAI 的 o1 相媲美的模型之一,在数学和编程方面表现出色。具有讽刺意味的是,作为一个"推理模型",阿里巴巴表示它在"常识推理方面还有提升空间"。TechCrunch 的测试显示,它也整合了中国政府的审查机制。它是免费和开源的。
Anthropic 的 Computer Use Claude 的 Computer Use 旨在控制你的电脑完成编程或预订机票等任务,是 OpenAI Operator 的前身。不过,Computer Use 仍处于测试阶段。定价通过 API:输入每百万 token 0.80 美元,输出每百万 token 4 美元。
x.AI 的 Grok 2 Elon Musk 的 AI 公司 x.AI 推出了其旗舰聊天机器人 Grok 2 的增强版本,据称"速度提高三倍"。免费用户每两小时限制使用 10 个问题,而 X 的 Premium 和 Premium+ 计划订阅者可以享受更高的使用限制。x.AI 还推出了一个图像生成器 Aurora,可以生成高度逼真的图像,包括一些图形或暴力内容。
OpenAI o1 OpenAI 的 o1 系列旨在通过"思考"响应的隐藏推理功能产生更好的答案。OpenAI 声称该模型在编程、数学和安全性方面表现出色,但也存在欺骗人类的问题。使用 o1 需要订阅每月 20 美元的 ChatGPT Plus。
Anthropic 的 Claude Sonnet 3.5 Claude Sonnet 3.5 是 Anthropic 声称的同类最佳模型。它以编程能力而闻名,被认为是技术内行者首选的聊天机器人。用户可以在 Claude 上免费使用该模型,但重度用户需要订阅每月 20 美元的 Pro 订阅。虽然它可以理解图像,但不能生成图像。
OpenAI GPT 4o-mini OpenAI 宣传 GPT 4o-mini 是其最经济实惠和最快速的模型,这要归功于其小巧的体积。它旨在支持广泛的任务,如为客服聊天机器人提供支持。该模型可在 ChatGPT 的免费版本中使用。与更复杂的任务相比,它更适合处理高容量的简单任务。
Cohere Command R+ Cohere 的 Command R+ 模型在企业复杂的检索增强生成 (RAG) 应用方面表现出色。这意味着它能很好地找到和引用特定信息。(RAG 的发明者实际上在 Cohere 工作)。不过,RAG 并不能完全解决 AI 的幻觉问题。
好文章,需要你的鼓励
本文探讨如何使用生成式AI和大语言模型作为倾听者,帮助用户表达内心想法。许多主流AI如ChatGPT、Claude等被设计成用户的"最佳伙伴",或试图提供心理健康建议,但有时用户只想要一个尊重的倾听者。文章提供了有效的提示词技巧,指导AI保持中性、尊重的态度,专注于倾听和理解,而非给出建议或判断。同时提醒用户注意隐私保护和AI的局限性。
北京大学团队开发出WoW世界模型,这是首个真正理解物理规律的AI系统。通过200万机器人互动数据训练,WoW不仅能生成逼真视频,更能理解重力、碰撞等物理定律。其创新的SOPHIA框架让AI具备自我纠错能力,在物理理解测试中达到80.16%准确率。该技术将推动智能机器人、视频制作等领域发展,为通用人工智能奠定重要基础。
人工通用智能和超级人工智能的出现,可能会创造出一种全新的外星智能形态。传统AI基于人类智能模式构建,但AGI和ASI一旦存在,可能会选择创造完全不同于人类认知方式的新型智能。这种外星人工智能既可能带来突破性进展,如找到癌症治愈方法,也可能存在未知风险。目前尚不确定这种新智能形态是否会超越人类智能,以及我们是否应该追求这一可能改变人类命运的技术突破。
香港大学和蚂蚁集团联合推出PromptCoT 2.0,这是一种让AI自动生成高质量训练题目的创新方法。通过"概念-思路-题目"的三步策略,AI能像老师备课一样先构思解题思路再出题,大幅提升了题目质量和训练效果。实验显示该方法在数学竞赛和编程任务上都取得了显著提升,为解决AI训练数据稀缺问题提供了新思路。