DeepSeek 最近迅速走红。
中国 AI 实验室 DeepSeek 本周突然进入大众视野,其聊天机器人应用在 Apple App Store 和 Google Play 商店排名飙升至榜首。DeepSeek 采用计算效率极高的技术训练其 AI 模型,这让华尔街分析师和技术专家们开始质疑美国能否在 AI 竞赛中保持领先地位,以及对 AI 芯片的需求是否能够持续。
DeepSeek 是如何起家的?它又是如何快速获得国际声誉的?
DeepSeek 的交易员起源
DeepSeek 背后的支持者是中国量化对冲基金翻高资产管理 (High-Flyer Capital Management),该基金利用 AI 来指导交易决策。
AI 爱好者梁文峰于 2015 年共同创立了翻高资产。据报道,梁文峰在浙江大学求学期间就开始涉足交易,并在 2019 年将翻高资产管理发展成一家专注于开发和部署 AI 算法的对冲基金。
2023 年,翻高资产成立了 DeepSeek 实验室,专门研究 AI 工具,与其金融业务分开。在翻高资产作为投资者之一的支持下,该实验室独立成为一家同名公司 DeepSeek。
从一开始,DeepSeek 就建立了自己的数据中心集群用于模型训练。但与中国其他 AI 公司一样,DeepSeek 也受到美国硬件出口禁令的影响。为了训练其最新模型之一,公司不得不使用 Nvidia H800 芯片,这是一款相比美国公司可用的 H100 芯片性能较弱的版本。
据说 DeepSeek 的技术团队普遍较为年轻。据报道,公司积极从中国顶尖大学招募 AI 领域的博士研究生。根据《纽约时报》报道,DeepSeek 还会招聘一些非计算机科学背景的人才,以帮助其技术更好地理解各种领域的知识。
DeepSeek 的强大模型
DeepSeek 于 2023 年 11 月发布了第一批模型 — DeepSeek Coder、DeepSeek LLM 和 DeepSeek Chat。但直到去年春天发布下一代 DeepSeek-V2 系列模型时,AI 行业才开始真正关注这家公司。
DeepSeek-V2 是一个通用的文本和图像分析系统,在各种 AI 基准测试中表现出色,而且运行成本远低于当时的同类模型。这迫使 DeepSeek 的国内竞争对手,包括字节跳动和阿里巴巴,不得不降低部分模型的使用价格,甚至将一些模型完全免费开放。
2024 年 12 月推出的 DeepSeek-V3 进一步提升了 DeepSeek 的知名度。
根据 DeepSeek 内部基准测试,DeepSeek V3 的性能超过了 Meta 的 Llama 等可下载的开源模型,以及像 OpenAI 的 GPT-4 这样只能通过 API 访问的"封闭"模型。
同样令人印象深刻的是 DeepSeek 的 R1"推理"模型。这个于 1 月发布的模型据称在关键基准测试中的表现可以与 OpenAI 的 o1 模型相媲美。
作为一个推理模型,R1 能够有效地进行自我事实核查,这有助于避免一些通常会让模型犯错的陷阱。与典型的非推理模型相比,推理模型需要更长的时间(通常多几秒到几分钟)来得出解决方案。但好处是它们在物理、科学和数学等领域往往更加可靠。
然而,R1、DeepSeek V3 和 DeepSeek 的其他模型也有一个缺点。作为中国开发的 AI,它们需要接受中国互联网监管机构的审查,以确保其响应"体现社会主义核心价值观"。例如,在 DeepSeek 的聊天机器人应用中,R1 不会回答关于天安门广场或台湾自治的问题。
颠覆性的商业策略
如果说 DeepSeek 有商业模式的话,目前还不太清楚具体是什么。该公司的产品和服务定价远低于市场价值,有些甚至完全免费。
DeepSeek 表示,效率突破使其能够保持极强的成本竞争力。但一些专家对公司提供的数据表示质疑。
无论如何,开发者们已经开始青睐 DeepSeek 的模型。这些模型虽然不是传统意义上的开源,但都采用允许商业使用的宽松许可证。根据托管 DeepSeek 模型的平台之一 Hugging Face 的 CEO Clem Delangue 表示,Hugging Face 上的开发者已经创建了超过 500 个基于 R1 的"衍生"模型,总下载量达到 250 万次。
DeepSeek 战胜更大更成熟的竞争对手的成功被描述为"颠覆 AI"和"过度炒作"。该公司的成功至少部分导致 Nvidia 的股价在周一下跌了 18%,并引发了 OpenAI CEO Sam Altman 的公开回应。
Microsoft 宣布 DeepSeek 已在其 Azure AI Foundry 服务上线,这是 Microsoft 为企业整合 AI 服务的平台。在第一季度财报电话会议上,当被问及 DeepSeek 对 Meta AI 支出的影响时,CEO Mark Zuckerberg 表示,在 AI 基础设施上的投资将继续成为 Meta 的"战略优势"。
同时,一些公司以及整个国家和政府都在禁用 DeepSeek,包括韩国。纽约州也禁止在政府设备上使用 DeepSeek。
至于 DeepSeek 的未来会如何,目前还不清楚。改进模型是必然的。但美国政府似乎越来越警惕其认为有害的外国影响。
好文章,需要你的鼓励
阿布扎比科技创新研究院团队首次发现大语言模型生成的JavaScript代码具有独特"指纹"特征,开发出能够准确识别代码AI来源的系统。研究创建了包含25万代码样本的大规模数据集,涵盖20个不同AI模型,识别准确率在5类任务中达到95.8%,即使代码经过混淆处理仍保持85%以上准确率,为网络安全、教育评估和软件取证提供重要技术支持。
国际能源署发布的2025年世界能源展望报告显示,全球AI竞赛推动创纪录的石油、天然气、煤炭和核能消耗,加剧地缘政治紧张局势和气候危机。数据中心用电量预计到2035年将增长三倍,全球数据中心投资预计2025年达5800亿美元,超过全球石油供应投资的5400亿美元。报告呼吁采取新方法实现2050年净零排放目标。
斯坦福大学研究团队首次系统比较了人类与AI在文本理解任务中的表现。通过HUME评估框架测试16个任务发现:人类平均77.6%,最佳AI为80.1%,排名第4。人类在非英语文化理解任务中显著优于AI,而AI在信息处理任务中更出色。研究揭示了当前AI评估体系的缺陷,指出AI的高分往往出现在任务标准模糊的情况下。