DeepSeek:中国AI聊天应用全面解析

中国AI实验室DeepSeek本周爆红,其聊天机器人应用登顶苹果和谷歌应用商店榜首。DeepSeek由量化对冲基金High-Flyer支持,使用计算高效技术训练AI模型,让华尔街分析师质疑美国能否保持AI领先地位。该公司发布的V3和R1推理模型在多项基准测试中表现出色,价格远低于同类产品。尽管面临美国芯片出口限制和政府设备禁用,DeepSeek仍凭借技术创新和低成本策略在全球AI市场引发关注。

DeepSeek已经火遍全球。

这家中国AI实验室本周成功打入主流视野,其聊天机器人应用登上了苹果App Store和Google Play排行榜榜首。DeepSeek的AI模型采用计算效率优化技术进行训练,这让华尔街分析师和技术专家开始质疑美国能否在AI竞赛中保持领先地位,以及对AI芯片的需求是否能够持续。

但DeepSeek从何而来,又是如何迅速崛起并获得国际声誉的呢?

DeepSeek的交易员起源

DeepSeek由中国量化对冲基金幻方量化支持,该基金使用AI来指导其交易决策。

AI爱好者梁文锋于2015年联合创立了幻方量化。据报道,梁文锋在浙江大学求学期间开始涉足交易,并于2019年将幻方量化管理公司作为专注于开发和部署AI算法的对冲基金推出。

2023年,幻方量化成立了DeepSeek,作为独立于其金融业务的AI工具研究实验室。在幻方量化作为投资方之一的支持下,该实验室分拆成为独立公司,同样名为DeepSeek。

从成立之初,DeepSeek就建立了自己的数据中心集群来进行模型训练。但与中国其他AI公司一样,DeepSeek也受到了美国硬件出口禁令的影响。为了训练其较新的模型之一,该公司被迫使用英伟达H800芯片,这是美国公司可用的H100芯片的低功耗版本。

据说DeepSeek的技术团队偏向年轻化。据报道,该公司积极从中国顶尖大学招募AI博士研究人员。据《纽约时报》报道,DeepSeek还雇用没有计算机科学背景的人员,以帮助其技术更好地理解广泛的学科领域。

DeepSeek的强大模型

DeepSeek于2023年11月推出了首套模型——DeepSeek Coder、DeepSeek大语言模型和DeepSeek Chat。但直到去年春天,这家初创公司发布了下一代DeepSeek-V2系列模型,AI行业才开始关注。

DeepSeek-V2是一个通用的文本和图像分析系统,在各种AI基准测试中表现出色,运行成本也远低于当时的同类模型。这迫使DeepSeek的国内竞争对手,包括字节跳动和阿里巴巴,降低了部分模型的使用价格,并让其他模型完全免费。

2024年12月推出的DeepSeek-V3进一步提升了DeepSeek的知名度。

根据DeepSeek的内部基准测试,DeepSeek V3的性能超越了可下载的开放模型(如Meta的Llama)和只能通过API访问的"封闭"模型(如OpenAI的GPT-4o)。

同样令人印象深刻的是DeepSeek的R1"推理"模型。该模型于1月发布,DeepSeek声称R1在关键基准测试中的表现与OpenAI的o1模型相当。

作为推理模型,R1能够有效地自我事实核查,这有助于它避免通常困扰模型的一些陷阱。与典型的非推理模型相比,推理模型需要稍长时间——通常是几秒到几分钟——来得出解决方案。好处是它们在物理、科学和数学等领域往往更加可靠。

然而,R1、DeepSeek V3和DeepSeek的其他模型也存在缺点。作为中国开发的AI,它们受到中国互联网监管机构的基准测试,以确保其响应"体现核心社会主义价值观"。例如,在DeepSeek的聊天应用中,R1不会回答关于天安门广场或台湾自治的问题。

3月份,DeepSeek的访问量超过了1650万次。Similarweb编辑David Carr告诉TechCrunch:"3月份,尽管DeepSeek的流量比2月份下降了25%,但根据日访问量计算,它仍排名第二。"与3月份周活跃用户数量突破5亿的ChatGPT相比,这个数字仍然相形见绌。

5月,DeepSeek在开发者平台Hugging Face上发布了其R1推理AI模型的更新版本。

9月,DeepSeek推出了一个名为V3.2-exp的新实验模型,旨在在长上下文操作中大幅降低推理成本。

颠覆性方法

如果说DeepSeek有商业模式的话,目前还不清楚具体是什么模式。该公司的产品和服务定价远低于市场价值,还免费提供其他服务。尽管获得了大量风险投资的关注,但它也没有接受投资者资金。

按DeepSeek的说法,效率突破使其能够保持极强的成本竞争力。然而,一些专家对该公司提供的数据提出质疑。

无论如何,开发者已经开始采用DeepSeek的模型。这些模型虽然不是通常理解的开源模型,但在宽松许可下提供,允许商业使用。据托管DeepSeek模型的平台之一Hugging Face的CEO Clem Delangue称,Hugging Face上的开发者已经创建了超过500个R1的"衍生"模型,总下载量达到250万次。

DeepSeek相对于更大、更成熟对手的成功被描述为"颠覆AI"和"过度炒作"。该公司的成功至少在一定程度上导致了英伟达股价在1月份下跌18%,并引发了OpenAI首席执行官Sam Altman的公开回应。据路透社报道,3月份,美国商务部各局告诉员工,DeepSeek将被禁止在政府设备上使用。

微软宣布DeepSeek已在其Azure AI Foundry服务上提供,这是微软将企业AI服务整合在一个平台下的服务。在第一季度财报电话会议上被问及DeepSeek对Meta AI支出的影响时,首席执行官Mark Zuckerberg表示,AI基础设施支出将继续成为Meta的"战略优势"。3月份,OpenAI称DeepSeek"受国家补贴"和"受国家控制",并建议美国政府考虑禁止DeepSeek的模型。

在英伟达第四季度财报电话会议上,首席执行官Jensen Huang强调了DeepSeek的"卓越创新",表示它和其他"推理"模型对英伟达很有利,因为它们需要更多计算资源。

与此同时,一些公司正在禁用DeepSeek,包括韩国在内的整个国家和政府也是如此。纽约州也禁止在政府设备上使用DeepSeek。

5月份,微软副董事长兼总裁Brad Smith在参议院听证会上表示,出于数据安全和宣传担忧,微软员工不允许使用DeepSeek。

至于DeepSeek的未来会如何,目前还不清楚。改进的模型是肯定的。但美国政府似乎对其认为的有害外国影响越来越警惕。3月份,《华尔街日报》报道称,美国可能会禁止在政府设备上使用DeepSeek。

本文最初发布于2025年1月28日,将定期更新。

Q&A

Q1:DeepSeek是什么公司?背后有什么支持?

A:DeepSeek是由中国量化对冲基金幻方量化支持的AI实验室。该实验室于2023年成立,专门研究AI工具,后来分拆成为独立的AI公司。幻方量化由AI爱好者梁文锋于2015年联合创立,专注于开发和部署AI算法用于交易决策。

Q2:DeepSeek的AI模型有什么特别之处?

A:DeepSeek的模型采用计算效率优化技术训练,性能出色且成本极低。其V3模型在基准测试中超越了Meta的Llama和OpenAI的GPT-4o,R1推理模型能够自我事实核查,在物理、科学和数学等领域表现更加可靠,但响应时间稍长。

Q3:为什么DeepSeek会引起美国政府的担忧?

A:美国政府担心DeepSeek受中国政府控制,存在数据安全和宣传风险。该公司的模型需要符合中国互联网监管要求,体现"核心社会主义价值观",不会回答某些敏感话题。美国商务部和纽约州已禁止在政府设备上使用DeepSeek。

来源:Techcrunch

0赞

好文章,需要你的鼓励

2025

09/30

08:13

分享

点赞

邮件订阅