DeepSeek 最近迅速走红。
中国 AI 实验室 DeepSeek 本周突然进入大众视野,其聊天机器人应用在 Apple App Store 和 Google Play 商店排名飙升至榜首。DeepSeek 采用计算效率极高的技术训练其 AI 模型,这让华尔街分析师和技术专家们开始质疑美国能否在 AI 竞赛中保持领先地位,以及对 AI 芯片的需求是否能够持续。
DeepSeek 是如何起家的?它又是如何快速获得国际声誉的?
DeepSeek 的交易员起源
DeepSeek 背后的支持者是中国量化对冲基金翻高资产管理 (High-Flyer Capital Management),该基金利用 AI 来指导交易决策。
AI 爱好者梁文峰于 2015 年共同创立了翻高资产。据报道,梁文峰在浙江大学求学期间就开始涉足交易,并在 2019 年将翻高资产管理发展成一家专注于开发和部署 AI 算法的对冲基金。
2023 年,翻高资产成立了 DeepSeek 实验室,专门研究 AI 工具,与其金融业务分开。在翻高资产作为投资者之一的支持下,该实验室独立成为一家同名公司 DeepSeek。
从一开始,DeepSeek 就建立了自己的数据中心集群用于模型训练。但与中国其他 AI 公司一样,DeepSeek 也受到美国硬件出口禁令的影响。为了训练其最新模型之一,公司不得不使用 Nvidia H800 芯片,这是一款相比美国公司可用的 H100 芯片性能较弱的版本。
据说 DeepSeek 的技术团队普遍较为年轻。据报道,公司积极从中国顶尖大学招募 AI 领域的博士研究生。根据《纽约时报》报道,DeepSeek 还会招聘一些非计算机科学背景的人才,以帮助其技术更好地理解各种领域的知识。
DeepSeek 的强大模型
DeepSeek 于 2023 年 11 月发布了第一批模型 — DeepSeek Coder、DeepSeek LLM 和 DeepSeek Chat。但直到去年春天发布下一代 DeepSeek-V2 系列模型时,AI 行业才开始真正关注这家公司。
DeepSeek-V2 是一个通用的文本和图像分析系统,在各种 AI 基准测试中表现出色,而且运行成本远低于当时的同类模型。这迫使 DeepSeek 的国内竞争对手,包括字节跳动和阿里巴巴,不得不降低部分模型的使用价格,甚至将一些模型完全免费开放。
2024 年 12 月推出的 DeepSeek-V3 进一步提升了 DeepSeek 的知名度。
根据 DeepSeek 内部基准测试,DeepSeek V3 的性能超过了 Meta 的 Llama 等可下载的开源模型,以及像 OpenAI 的 GPT-4 这样只能通过 API 访问的"封闭"模型。
同样令人印象深刻的是 DeepSeek 的 R1"推理"模型。这个于 1 月发布的模型据称在关键基准测试中的表现可以与 OpenAI 的 o1 模型相媲美。
作为一个推理模型,R1 能够有效地进行自我事实核查,这有助于避免一些通常会让模型犯错的陷阱。与典型的非推理模型相比,推理模型需要更长的时间(通常多几秒到几分钟)来得出解决方案。但好处是它们在物理、科学和数学等领域往往更加可靠。
然而,R1、DeepSeek V3 和 DeepSeek 的其他模型也有一个缺点。作为中国开发的 AI,它们需要接受中国互联网监管机构的审查,以确保其响应"体现社会主义核心价值观"。例如,在 DeepSeek 的聊天机器人应用中,R1 不会回答关于天安门广场或台湾自治的问题。
颠覆性的商业策略
如果说 DeepSeek 有商业模式的话,目前还不太清楚具体是什么。该公司的产品和服务定价远低于市场价值,有些甚至完全免费。
DeepSeek 表示,效率突破使其能够保持极强的成本竞争力。但一些专家对公司提供的数据表示质疑。
无论如何,开发者们已经开始青睐 DeepSeek 的模型。这些模型虽然不是传统意义上的开源,但都采用允许商业使用的宽松许可证。根据托管 DeepSeek 模型的平台之一 Hugging Face 的 CEO Clem Delangue 表示,Hugging Face 上的开发者已经创建了超过 500 个基于 R1 的"衍生"模型,总下载量达到 250 万次。
DeepSeek 战胜更大更成熟的竞争对手的成功被描述为"颠覆 AI"和"过度炒作"。该公司的成功至少部分导致 Nvidia 的股价在周一下跌了 18%,并引发了 OpenAI CEO Sam Altman 的公开回应。
Microsoft 宣布 DeepSeek 已在其 Azure AI Foundry 服务上线,这是 Microsoft 为企业整合 AI 服务的平台。在第一季度财报电话会议上,当被问及 DeepSeek 对 Meta AI 支出的影响时,CEO Mark Zuckerberg 表示,在 AI 基础设施上的投资将继续成为 Meta 的"战略优势"。
同时,一些公司以及整个国家和政府都在禁用 DeepSeek,包括韩国。纽约州也禁止在政府设备上使用 DeepSeek。
至于 DeepSeek 的未来会如何,目前还不清楚。改进模型是必然的。但美国政府似乎越来越警惕其认为有害的外国影响。
好文章,需要你的鼓励
Vanta 推出全新 AI 合规代理,自动处理安全与合规工作流,从策略映射到证据审核,有效降低人工失误并提升运营效率。该产品已启动私测,七月全面上线在即,开启企业风险管理新时代。
谷歌DeepMind研究团队开发了一种革命性的机器人3D重建技术SplatMesh,能够让机器人从不完美的真实数据中学习,同时重建物体几何形状和外观。该技术采用端到端优化策略,将机器人校准、场景重建和物理仿真统一在一个框架中,在ALOHA2双臂机器人上的实验证明其能够处理现实世界的复杂条件,为机器人自主学习和适应提供了新的解决方案。
电子科技大学研究团队突破性发现:仅使用不到10%的精选训练数据,就能让多模态AI的推理能力超越传统全数据训练方法,同时缩短40%训练时间。他们开发的RAP数据选择框架通过因果差异分析和注意力评估,精准识别能激发AI真正多模态推理的"认知样本",颠覆了"大数据必然更好"的传统观念,为AI训练开辟了质量优先的新路径。
这项由巴斯克语言技术中心团队完成的研究,开发了GUIDEX方法来自动生成信息提取的标注指南和训练数据。该方法通过四个步骤(文档总结、结构化表示、指南生成、实例提取)模拟专家工作流程,无需人工标注即可适应新领域。实验显示,GUIDEX在七个零样本命名实体识别基准上创造了新的最佳成绩,比现有方法平均提升近2个F1分数点。