DeepSeek已经火遍全球。
这家中国AI实验室本周成功打入主流视野,其聊天机器人应用登上了苹果App Store和Google Play排行榜榜首。DeepSeek的AI模型采用计算效率优化技术进行训练,这让华尔街分析师和技术专家开始质疑美国能否在AI竞赛中保持领先地位,以及对AI芯片的需求是否能够持续。
但DeepSeek从何而来,又是如何迅速崛起并获得国际声誉的呢?
DeepSeek的交易员起源
DeepSeek由中国量化对冲基金幻方量化支持,该基金使用AI来指导其交易决策。
AI爱好者梁文锋于2015年联合创立了幻方量化。据报道,梁文锋在浙江大学求学期间开始涉足交易,并于2019年将幻方量化管理公司作为专注于开发和部署AI算法的对冲基金推出。
2023年,幻方量化成立了DeepSeek,作为独立于其金融业务的AI工具研究实验室。在幻方量化作为投资方之一的支持下,该实验室分拆成为独立公司,同样名为DeepSeek。
从成立之初,DeepSeek就建立了自己的数据中心集群来进行模型训练。但与中国其他AI公司一样,DeepSeek也受到了美国硬件出口禁令的影响。为了训练其较新的模型之一,该公司被迫使用英伟达H800芯片,这是美国公司可用的H100芯片的低功耗版本。
据说DeepSeek的技术团队偏向年轻化。据报道,该公司积极从中国顶尖大学招募AI博士研究人员。据《纽约时报》报道,DeepSeek还雇用没有计算机科学背景的人员,以帮助其技术更好地理解广泛的学科领域。
DeepSeek的强大模型
DeepSeek于2023年11月推出了首套模型——DeepSeek Coder、DeepSeek大语言模型和DeepSeek Chat。但直到去年春天,这家初创公司发布了下一代DeepSeek-V2系列模型,AI行业才开始关注。
DeepSeek-V2是一个通用的文本和图像分析系统,在各种AI基准测试中表现出色,运行成本也远低于当时的同类模型。这迫使DeepSeek的国内竞争对手,包括字节跳动和阿里巴巴,降低了部分模型的使用价格,并让其他模型完全免费。
2024年12月推出的DeepSeek-V3进一步提升了DeepSeek的知名度。
根据DeepSeek的内部基准测试,DeepSeek V3的性能超越了可下载的开放模型(如Meta的Llama)和只能通过API访问的"封闭"模型(如OpenAI的GPT-4o)。
同样令人印象深刻的是DeepSeek的R1"推理"模型。该模型于1月发布,DeepSeek声称R1在关键基准测试中的表现与OpenAI的o1模型相当。
作为推理模型,R1能够有效地自我事实核查,这有助于它避免通常困扰模型的一些陷阱。与典型的非推理模型相比,推理模型需要稍长时间——通常是几秒到几分钟——来得出解决方案。好处是它们在物理、科学和数学等领域往往更加可靠。
然而,R1、DeepSeek V3和DeepSeek的其他模型也存在缺点。作为中国开发的AI,它们受到中国互联网监管机构的基准测试,以确保其响应"体现核心社会主义价值观"。例如,在DeepSeek的聊天应用中,R1不会回答关于天安门广场或台湾自治的问题。
3月份,DeepSeek的访问量超过了1650万次。Similarweb编辑David Carr告诉TechCrunch:"3月份,尽管DeepSeek的流量比2月份下降了25%,但根据日访问量计算,它仍排名第二。"与3月份周活跃用户数量突破5亿的ChatGPT相比,这个数字仍然相形见绌。
5月,DeepSeek在开发者平台Hugging Face上发布了其R1推理AI模型的更新版本。
9月,DeepSeek推出了一个名为V3.2-exp的新实验模型,旨在在长上下文操作中大幅降低推理成本。
颠覆性方法
如果说DeepSeek有商业模式的话,目前还不清楚具体是什么模式。该公司的产品和服务定价远低于市场价值,还免费提供其他服务。尽管获得了大量风险投资的关注,但它也没有接受投资者资金。
按DeepSeek的说法,效率突破使其能够保持极强的成本竞争力。然而,一些专家对该公司提供的数据提出质疑。
无论如何,开发者已经开始采用DeepSeek的模型。这些模型虽然不是通常理解的开源模型,但在宽松许可下提供,允许商业使用。据托管DeepSeek模型的平台之一Hugging Face的CEO Clem Delangue称,Hugging Face上的开发者已经创建了超过500个R1的"衍生"模型,总下载量达到250万次。
DeepSeek相对于更大、更成熟对手的成功被描述为"颠覆AI"和"过度炒作"。该公司的成功至少在一定程度上导致了英伟达股价在1月份下跌18%,并引发了OpenAI首席执行官Sam Altman的公开回应。据路透社报道,3月份,美国商务部各局告诉员工,DeepSeek将被禁止在政府设备上使用。
微软宣布DeepSeek已在其Azure AI Foundry服务上提供,这是微软将企业AI服务整合在一个平台下的服务。在第一季度财报电话会议上被问及DeepSeek对Meta AI支出的影响时,首席执行官Mark Zuckerberg表示,AI基础设施支出将继续成为Meta的"战略优势"。3月份,OpenAI称DeepSeek"受国家补贴"和"受国家控制",并建议美国政府考虑禁止DeepSeek的模型。
在英伟达第四季度财报电话会议上,首席执行官Jensen Huang强调了DeepSeek的"卓越创新",表示它和其他"推理"模型对英伟达很有利,因为它们需要更多计算资源。
与此同时,一些公司正在禁用DeepSeek,包括韩国在内的整个国家和政府也是如此。纽约州也禁止在政府设备上使用DeepSeek。
5月份,微软副董事长兼总裁Brad Smith在参议院听证会上表示,出于数据安全和宣传担忧,微软员工不允许使用DeepSeek。
至于DeepSeek的未来会如何,目前还不清楚。改进的模型是肯定的。但美国政府似乎对其认为的有害外国影响越来越警惕。3月份,《华尔街日报》报道称,美国可能会禁止在政府设备上使用DeepSeek。
本文最初发布于2025年1月28日,将定期更新。
Q&A
Q1:DeepSeek是什么公司?背后有什么支持?
A:DeepSeek是由中国量化对冲基金幻方量化支持的AI实验室。该实验室于2023年成立,专门研究AI工具,后来分拆成为独立的AI公司。幻方量化由AI爱好者梁文锋于2015年联合创立,专注于开发和部署AI算法用于交易决策。
Q2:DeepSeek的AI模型有什么特别之处?
A:DeepSeek的模型采用计算效率优化技术训练,性能出色且成本极低。其V3模型在基准测试中超越了Meta的Llama和OpenAI的GPT-4o,R1推理模型能够自我事实核查,在物理、科学和数学等领域表现更加可靠,但响应时间稍长。
Q3:为什么DeepSeek会引起美国政府的担忧?
A:美国政府担心DeepSeek受中国政府控制,存在数据安全和宣传风险。该公司的模型需要符合中国互联网监管要求,体现"核心社会主义价值观",不会回答某些敏感话题。美国商务部和纽约州已禁止在政府设备上使用DeepSeek。
好文章,需要你的鼓励
微软宣布为Word和Excel推出基于OpenAI的AI代理模式,通过简单提示即可自动生成文档和分析数据。Word用户可享受"氛围写作"功能,利用现有文档组装报告和提案。Excel代理能分析电子表格数据并生成可视化报告。尽管在SpreadsheetBench基准测试中准确率仅为57.2%,低于人类平均水平71.3%,但微软强调其针对实际工作场景优化。此外,微软还发布了基于Anthropic的Office代理,显示其正逐步减少对OpenAI的依赖。
北卡罗来纳大学研究团队通过深入分析手指触控过程中的动态特征,开发出新型触控识别算法,能够理解触控过程中的压力分布、接触面积变化等信息,比传统方法准确率提高15-28%。该技术采用分层处理架构解决计算效率问题,已在真实设备上验证效果,将为个性化交互、情感感知等未来应用奠定基础,有望显著改善用户的触控体验。
OpenAI为美国ChatGPT用户推出"即时结账"功能,用户可在对话中直接购买Etsy和Shopify商品,无需跳转至外部网站。该功能支持Apple Pay、Google Pay等多种支付方式,并计划接入超过100万家Shopify商户。OpenAI还将开源其代理商务协议技术,与谷歌的代理支付协议形成竞争。这标志着电商购物模式的重大转变,AI聊天机器人可能重塑在线零售发现和支付生态系统。
Perfios公司研究团队开发了创新的AI理财顾问训练框架,通过行为心理学驱动的数据生成方法,让8B参数的小模型在个人理财建议方面达到了与32B大模型相当的性能,同时运营成本降低80%。该方法首次将用户心理状态分析作为独立训练阶段,显著提升了AI建议的个性化程度和人性化表达,为普及化AI理财服务提供了技术路径。