DeepSeek 最近迅速走红。
中国 AI 实验室 DeepSeek 本周突然进入大众视野,其聊天机器人应用在 Apple App Store 和 Google Play 商店排名飙升至榜首。DeepSeek 采用计算效率极高的技术训练其 AI 模型,这让华尔街分析师和技术专家们开始质疑美国能否在 AI 竞赛中保持领先地位,以及对 AI 芯片的需求是否能够持续。
DeepSeek 是如何起家的?它又是如何快速获得国际声誉的?
DeepSeek 的交易员起源
DeepSeek 背后的支持者是中国量化对冲基金翻高资产管理 (High-Flyer Capital Management),该基金利用 AI 来指导交易决策。
AI 爱好者梁文峰于 2015 年共同创立了翻高资产。据报道,梁文峰在浙江大学求学期间就开始涉足交易,并在 2019 年将翻高资产管理发展成一家专注于开发和部署 AI 算法的对冲基金。
2023 年,翻高资产成立了 DeepSeek 实验室,专门研究 AI 工具,与其金融业务分开。在翻高资产作为投资者之一的支持下,该实验室独立成为一家同名公司 DeepSeek。
从一开始,DeepSeek 就建立了自己的数据中心集群用于模型训练。但与中国其他 AI 公司一样,DeepSeek 也受到美国硬件出口禁令的影响。为了训练其最新模型之一,公司不得不使用 Nvidia H800 芯片,这是一款相比美国公司可用的 H100 芯片性能较弱的版本。
据说 DeepSeek 的技术团队普遍较为年轻。据报道,公司积极从中国顶尖大学招募 AI 领域的博士研究生。根据《纽约时报》报道,DeepSeek 还会招聘一些非计算机科学背景的人才,以帮助其技术更好地理解各种领域的知识。
DeepSeek 的强大模型
DeepSeek 于 2023 年 11 月发布了第一批模型 — DeepSeek Coder、DeepSeek LLM 和 DeepSeek Chat。但直到去年春天发布下一代 DeepSeek-V2 系列模型时,AI 行业才开始真正关注这家公司。
DeepSeek-V2 是一个通用的文本和图像分析系统,在各种 AI 基准测试中表现出色,而且运行成本远低于当时的同类模型。这迫使 DeepSeek 的国内竞争对手,包括字节跳动和阿里巴巴,不得不降低部分模型的使用价格,甚至将一些模型完全免费开放。
2024 年 12 月推出的 DeepSeek-V3 进一步提升了 DeepSeek 的知名度。
根据 DeepSeek 内部基准测试,DeepSeek V3 的性能超过了 Meta 的 Llama 等可下载的开源模型,以及像 OpenAI 的 GPT-4 这样只能通过 API 访问的"封闭"模型。
同样令人印象深刻的是 DeepSeek 的 R1"推理"模型。这个于 1 月发布的模型据称在关键基准测试中的表现可以与 OpenAI 的 o1 模型相媲美。
作为一个推理模型,R1 能够有效地进行自我事实核查,这有助于避免一些通常会让模型犯错的陷阱。与典型的非推理模型相比,推理模型需要更长的时间(通常多几秒到几分钟)来得出解决方案。但好处是它们在物理、科学和数学等领域往往更加可靠。
然而,R1、DeepSeek V3 和 DeepSeek 的其他模型也有一个缺点。作为中国开发的 AI,它们需要接受中国互联网监管机构的审查,以确保其响应"体现社会主义核心价值观"。例如,在 DeepSeek 的聊天机器人应用中,R1 不会回答关于天安门广场或台湾自治的问题。
颠覆性的商业策略
如果说 DeepSeek 有商业模式的话,目前还不太清楚具体是什么。该公司的产品和服务定价远低于市场价值,有些甚至完全免费。
DeepSeek 表示,效率突破使其能够保持极强的成本竞争力。但一些专家对公司提供的数据表示质疑。
无论如何,开发者们已经开始青睐 DeepSeek 的模型。这些模型虽然不是传统意义上的开源,但都采用允许商业使用的宽松许可证。根据托管 DeepSeek 模型的平台之一 Hugging Face 的 CEO Clem Delangue 表示,Hugging Face 上的开发者已经创建了超过 500 个基于 R1 的"衍生"模型,总下载量达到 250 万次。
DeepSeek 战胜更大更成熟的竞争对手的成功被描述为"颠覆 AI"和"过度炒作"。该公司的成功至少部分导致 Nvidia 的股价在周一下跌了 18%,并引发了 OpenAI CEO Sam Altman 的公开回应。
Microsoft 宣布 DeepSeek 已在其 Azure AI Foundry 服务上线,这是 Microsoft 为企业整合 AI 服务的平台。在第一季度财报电话会议上,当被问及 DeepSeek 对 Meta AI 支出的影响时,CEO Mark Zuckerberg 表示,在 AI 基础设施上的投资将继续成为 Meta 的"战略优势"。
同时,一些公司以及整个国家和政府都在禁用 DeepSeek,包括韩国。纽约州也禁止在政府设备上使用 DeepSeek。
至于 DeepSeek 的未来会如何,目前还不清楚。改进模型是必然的。但美国政府似乎越来越警惕其认为有害的外国影响。
好文章,需要你的鼓励
傍晚的阶梯教室里,一名设计系学生正通过AI生成的3D模型调整设计方案。从前改一版设计总要通宵建模,现在用AI就能同步生成很多种参数组合。
文章探讨了当前科技行业面临的负面看法,以及CIO如何改变这种状况。建议CIO应该重新赢得利益相关者的信任,专注于切实改善客户和员工的工作体验,而不是华而不实的技术。文章提出了一些具体策略,如使用四象限矩阵分析问题优先级,将焦点从当前的不满转移到对未来的期待上等。
埃隆·马斯克的人工智能公司 xAI 推出了备受期待的旗舰 AI 模型 Grok 3。新模型推出后,Grok 应用的下载量和活跃用户数大幅增长。然而,近期围绕 Grok 3 的争议可能会影响用户的热情。能否保持增长势头并留住用户,成为 xAI 面临的重要挑战。
Google 宣布面向个人开发者的 Gemini Code Assist 正式推出公开预览版。这款强大的 AI 编程助手每月提供高达 18 万次代码补全,远超其他同类产品。它支持多种编程语言和开发环境,通过自然语言交互为用户提供代码生成、补全和调试等全方位辅助,旨在让学生、爱好者和自由职业者等个人开发者也能便捷地使用先进的 AI 编程工具。