从 Google 这样的科技巨头到 OpenAI 和 Anthropic 这样的初创公司,AI 模型的推出速度令人目不暇接。要跟踪最新的模型developments确实令人应接不暇。
雪上加霜的是,AI 模型通常基于行业基准进行推广。但这些技术指标往往无法真实反映普通用户和企业实际如何使用它们。
为了梳理这些信息,TechCrunch 整理了一份自 2024 年以来发布的最先进 AI 模型概览,详细介绍了它们的使用方法和最佳应用场景。我们也会持续更新这个列表,收录最新发布的模型。
目前已有超过一百万个 AI 模型:例如,Hugging Face 就托管了超过 140 万个模型。因此这个列表可能会遗漏一些在某些方面表现更好的模型。
2025 年发布的 AI 模型
Claude Sonnet 3.7 Anthropic 称这是业界首个"混合"推理模型,因为它既能快速回答问题,也能在需要时深入思考。用户还可以控制模型的思考时间。所有 Claude 用户都可以使用 Sonnet 3.7,但重度用户需要订阅每月 20 美元的 Pro 计划。
xAI 的 Grok 3 Grok 3 是 Elon Musk 创立的初创公司 xAI 最新的旗舰模型。据称在数学、科学和编程方面的表现优于其他领先模型。使用该模型需要订阅 X Premium (每月 50 美元)。在一项研究发现 Grok 2 倾向左派后,Musk 承诺让 Grok 更加"政治中立",但目前尚不清楚是否达到这一目标。
OpenAI o3-mini 这是 OpenAI 最新的推理模型,针对编程、数学和科学等 STEM 相关任务进行了优化。虽然不是 OpenAI 最强大的模型,但由于体积较小,公司表示成本显著降低。免费用户可以使用,但重度用户需要订阅。
OpenAI Deep Research OpenAI 的 Deep Research 专门用于对特定主题进行深入研究,并提供明确的引用。此服务仅对订阅每月 200 美元 ChatGPT Pro 的用户开放。OpenAI 建议将其用于从科学到购物研究的各种场景,但需注意 AI 的幻觉问题仍然存在。
Mistral Le Chat Mistral 推出了 Le Chat 的应用版本,这是一款多模态 AI 个人助手。Mistral 声称 Le Chat 的响应速度比其他聊天机器人更快。它还有一个付费版本,提供来自 AFP 的最新新闻。Le Monde 的测试发现 Le Chat 的表现令人印象深刻,但错误率高于 ChatGPT。
OpenAI Operator OpenAI 的 Operator 旨在成为一个能独立工作的个人助理,比如帮你购买杂货。需要订阅每月 200 美元的 ChatGPT Pro。AI 代理很有前景,但仍处于实验阶段:华盛顿邮报的评测者表示,Operator 自作主张用评测者的信用卡订购了一打 31 美元的鸡蛋。
Google Gemini 2.0 Pro Experimental 备受期待的 Google Gemini 旗舰模型据称在编程和通用知识理解方面表现出色。它拥有 200 万 token 的超长上下文窗口,有助于用户快速处理大量文本。使用该服务至少需要订阅每月 19.99 美元的 Google One AI Premium。
2024 年发布的 AI 模型
DeepSeek R1 这个中国 AI 模型在硅谷掀起了轩然大波。DeepSeek 的 R1 在编程和数学方面表现出色,其开源特性意味着任何人都可以在本地运行。而且它是免费的。然而,R1 集成了中国政府的审查机制,且因可能将用户数据发回中国而面临越来越多的禁令。
Gemini Deep Research Deep Research 以简单且有引用的文档形式汇总 Google 的搜索结果。这项服务对学生和需要快速研究总结的人很有帮助。但其质量远不如实际的同行评议论文。Deep Research 需要订阅每月 19.99 美元的 Google One AI Premium。
Meta Llama 3.3 70B 这是 Meta 开源 Llama AI 模型的最新最先进版本。Meta 称这个版本是其最经济高效的版本,尤其是在数学、通用知识和遵循指令方面。它是免费和开源的。
OpenAI Sora Sora 是一个基于文本创建真实视频的模型。虽然它可以生成完整场景而不仅仅是片段,但 OpenAI 承认它经常生成"不符合物理规律的内容"。目前仅适用于 ChatGPT 的付费版本,从每月 20 美元的 Plus 版本开始。
阿里巴巴 Qwen QwQ-32B-Preview 这个模型是少数几个在某些行业基准测试中可以与 OpenAI 的 o1 相媲美的模型之一,在数学和编程方面表现出色。具有讽刺意味的是,作为一个"推理模型",阿里巴巴表示它在"常识推理方面还有提升空间"。TechCrunch 的测试显示,它也整合了中国政府的审查机制。它是免费和开源的。
Anthropic 的 Computer Use Claude 的 Computer Use 旨在控制你的电脑完成编程或预订机票等任务,是 OpenAI Operator 的前身。不过,Computer Use 仍处于测试阶段。定价通过 API:输入每百万 token 0.80 美元,输出每百万 token 4 美元。
x.AI 的 Grok 2 Elon Musk 的 AI 公司 x.AI 推出了其旗舰聊天机器人 Grok 2 的增强版本,据称"速度提高三倍"。免费用户每两小时限制使用 10 个问题,而 X 的 Premium 和 Premium+ 计划订阅者可以享受更高的使用限制。x.AI 还推出了一个图像生成器 Aurora,可以生成高度逼真的图像,包括一些图形或暴力内容。
OpenAI o1 OpenAI 的 o1 系列旨在通过"思考"响应的隐藏推理功能产生更好的答案。OpenAI 声称该模型在编程、数学和安全性方面表现出色,但也存在欺骗人类的问题。使用 o1 需要订阅每月 20 美元的 ChatGPT Plus。
Anthropic 的 Claude Sonnet 3.5 Claude Sonnet 3.5 是 Anthropic 声称的同类最佳模型。它以编程能力而闻名,被认为是技术内行者首选的聊天机器人。用户可以在 Claude 上免费使用该模型,但重度用户需要订阅每月 20 美元的 Pro 订阅。虽然它可以理解图像,但不能生成图像。
OpenAI GPT 4o-mini OpenAI 宣传 GPT 4o-mini 是其最经济实惠和最快速的模型,这要归功于其小巧的体积。它旨在支持广泛的任务,如为客服聊天机器人提供支持。该模型可在 ChatGPT 的免费版本中使用。与更复杂的任务相比,它更适合处理高容量的简单任务。
Cohere Command R+ Cohere 的 Command R+ 模型在企业复杂的检索增强生成 (RAG) 应用方面表现出色。这意味着它能很好地找到和引用特定信息。(RAG 的发明者实际上在 Cohere 工作)。不过,RAG 并不能完全解决 AI 的幻觉问题。
好文章,需要你的鼓励
傍晚的阶梯教室里,一名设计系学生正通过AI生成的3D模型调整设计方案。从前改一版设计总要通宵建模,现在用AI就能同步生成很多种参数组合。
文章探讨了当前科技行业面临的负面看法,以及CIO如何改变这种状况。建议CIO应该重新赢得利益相关者的信任,专注于切实改善客户和员工的工作体验,而不是华而不实的技术。文章提出了一些具体策略,如使用四象限矩阵分析问题优先级,将焦点从当前的不满转移到对未来的期待上等。
埃隆·马斯克的人工智能公司 xAI 推出了备受期待的旗舰 AI 模型 Grok 3。新模型推出后,Grok 应用的下载量和活跃用户数大幅增长。然而,近期围绕 Grok 3 的争议可能会影响用户的热情。能否保持增长势头并留住用户,成为 xAI 面临的重要挑战。
Google 宣布面向个人开发者的 Gemini Code Assist 正式推出公开预览版。这款强大的 AI 编程助手每月提供高达 18 万次代码补全,远超其他同类产品。它支持多种编程语言和开发环境,通过自然语言交互为用户提供代码生成、补全和调试等全方位辅助,旨在让学生、爱好者和自由职业者等个人开发者也能便捷地使用先进的 AI 编程工具。