从 Google 这样的科技巨头到 OpenAI 和 Anthropic 这样的初创公司,AI 模型的推出速度令人目不暇接。要跟踪最新的模型developments确实令人应接不暇。
雪上加霜的是,AI 模型通常基于行业基准进行推广。但这些技术指标往往无法真实反映普通用户和企业实际如何使用它们。
为了梳理这些信息,TechCrunch 整理了一份自 2024 年以来发布的最先进 AI 模型概览,详细介绍了它们的使用方法和最佳应用场景。我们也会持续更新这个列表,收录最新发布的模型。
目前已有超过一百万个 AI 模型:例如,Hugging Face 就托管了超过 140 万个模型。因此这个列表可能会遗漏一些在某些方面表现更好的模型。
2025 年发布的 AI 模型
Claude Sonnet 3.7 Anthropic 称这是业界首个"混合"推理模型,因为它既能快速回答问题,也能在需要时深入思考。用户还可以控制模型的思考时间。所有 Claude 用户都可以使用 Sonnet 3.7,但重度用户需要订阅每月 20 美元的 Pro 计划。
xAI 的 Grok 3 Grok 3 是 Elon Musk 创立的初创公司 xAI 最新的旗舰模型。据称在数学、科学和编程方面的表现优于其他领先模型。使用该模型需要订阅 X Premium (每月 50 美元)。在一项研究发现 Grok 2 倾向左派后,Musk 承诺让 Grok 更加"政治中立",但目前尚不清楚是否达到这一目标。
OpenAI o3-mini 这是 OpenAI 最新的推理模型,针对编程、数学和科学等 STEM 相关任务进行了优化。虽然不是 OpenAI 最强大的模型,但由于体积较小,公司表示成本显著降低。免费用户可以使用,但重度用户需要订阅。
OpenAI Deep Research OpenAI 的 Deep Research 专门用于对特定主题进行深入研究,并提供明确的引用。此服务仅对订阅每月 200 美元 ChatGPT Pro 的用户开放。OpenAI 建议将其用于从科学到购物研究的各种场景,但需注意 AI 的幻觉问题仍然存在。
Mistral Le Chat Mistral 推出了 Le Chat 的应用版本,这是一款多模态 AI 个人助手。Mistral 声称 Le Chat 的响应速度比其他聊天机器人更快。它还有一个付费版本,提供来自 AFP 的最新新闻。Le Monde 的测试发现 Le Chat 的表现令人印象深刻,但错误率高于 ChatGPT。
OpenAI Operator OpenAI 的 Operator 旨在成为一个能独立工作的个人助理,比如帮你购买杂货。需要订阅每月 200 美元的 ChatGPT Pro。AI 代理很有前景,但仍处于实验阶段:华盛顿邮报的评测者表示,Operator 自作主张用评测者的信用卡订购了一打 31 美元的鸡蛋。
Google Gemini 2.0 Pro Experimental 备受期待的 Google Gemini 旗舰模型据称在编程和通用知识理解方面表现出色。它拥有 200 万 token 的超长上下文窗口,有助于用户快速处理大量文本。使用该服务至少需要订阅每月 19.99 美元的 Google One AI Premium。
2024 年发布的 AI 模型
DeepSeek R1 这个中国 AI 模型在硅谷掀起了轩然大波。DeepSeek 的 R1 在编程和数学方面表现出色,其开源特性意味着任何人都可以在本地运行。而且它是免费的。然而,R1 集成了中国政府的审查机制,且因可能将用户数据发回中国而面临越来越多的禁令。
Gemini Deep Research Deep Research 以简单且有引用的文档形式汇总 Google 的搜索结果。这项服务对学生和需要快速研究总结的人很有帮助。但其质量远不如实际的同行评议论文。Deep Research 需要订阅每月 19.99 美元的 Google One AI Premium。
Meta Llama 3.3 70B 这是 Meta 开源 Llama AI 模型的最新最先进版本。Meta 称这个版本是其最经济高效的版本,尤其是在数学、通用知识和遵循指令方面。它是免费和开源的。
OpenAI Sora Sora 是一个基于文本创建真实视频的模型。虽然它可以生成完整场景而不仅仅是片段,但 OpenAI 承认它经常生成"不符合物理规律的内容"。目前仅适用于 ChatGPT 的付费版本,从每月 20 美元的 Plus 版本开始。
阿里巴巴 Qwen QwQ-32B-Preview 这个模型是少数几个在某些行业基准测试中可以与 OpenAI 的 o1 相媲美的模型之一,在数学和编程方面表现出色。具有讽刺意味的是,作为一个"推理模型",阿里巴巴表示它在"常识推理方面还有提升空间"。TechCrunch 的测试显示,它也整合了中国政府的审查机制。它是免费和开源的。
Anthropic 的 Computer Use Claude 的 Computer Use 旨在控制你的电脑完成编程或预订机票等任务,是 OpenAI Operator 的前身。不过,Computer Use 仍处于测试阶段。定价通过 API:输入每百万 token 0.80 美元,输出每百万 token 4 美元。
x.AI 的 Grok 2 Elon Musk 的 AI 公司 x.AI 推出了其旗舰聊天机器人 Grok 2 的增强版本,据称"速度提高三倍"。免费用户每两小时限制使用 10 个问题,而 X 的 Premium 和 Premium+ 计划订阅者可以享受更高的使用限制。x.AI 还推出了一个图像生成器 Aurora,可以生成高度逼真的图像,包括一些图形或暴力内容。
OpenAI o1 OpenAI 的 o1 系列旨在通过"思考"响应的隐藏推理功能产生更好的答案。OpenAI 声称该模型在编程、数学和安全性方面表现出色,但也存在欺骗人类的问题。使用 o1 需要订阅每月 20 美元的 ChatGPT Plus。
Anthropic 的 Claude Sonnet 3.5 Claude Sonnet 3.5 是 Anthropic 声称的同类最佳模型。它以编程能力而闻名,被认为是技术内行者首选的聊天机器人。用户可以在 Claude 上免费使用该模型,但重度用户需要订阅每月 20 美元的 Pro 订阅。虽然它可以理解图像,但不能生成图像。
OpenAI GPT 4o-mini OpenAI 宣传 GPT 4o-mini 是其最经济实惠和最快速的模型,这要归功于其小巧的体积。它旨在支持广泛的任务,如为客服聊天机器人提供支持。该模型可在 ChatGPT 的免费版本中使用。与更复杂的任务相比,它更适合处理高容量的简单任务。
Cohere Command R+ Cohere 的 Command R+ 模型在企业复杂的检索增强生成 (RAG) 应用方面表现出色。这意味着它能很好地找到和引用特定信息。(RAG 的发明者实际上在 Cohere 工作)。不过,RAG 并不能完全解决 AI 的幻觉问题。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。