风险投资家和创始人一直在积极讨论 DeepSeek 对硅谷的影响。作为人工智能领域的新兴力量,DeepSeek 的快速崛起引发了人们对 AI 创新未来、开源主导地位以及传统 AI 商业模式可持续性的思考。讨论的焦点在于 DeepSeek 是否代表了一种范式转变还是短暂的颠覆,以及现有的 AI 企业应如何适应这个不断发展的格局。
DeepSeek 在 AI 开发者领域迅速崛起,在 Hugging Face 排名中名列前茅,并确立了自己作为主导开源力量的地位。其注重速度、成本效益和可访问性的方法,在全球 AI 研究社区中赢得了巨大的好评。与竞争对手相比,DeepSeek 以较低的成本运营,在不依赖重型基础设施的情况下提供尖端能力。
虽然新闻头条在猜测 AI 主导地位的转变,但实际情况更为微妙:DeepSeek 的创新正促使现有参与者重新思考其战略,鼓励向更精简、更高效的 AI 模型转变。
DeepSeek 的成功源于其对效率和技术创新的关注。该公司凭借其 DeepSeek Coder 和 DeepSeek-V3 模型在代码生成和自然语言处理方面的出色表现而备受关注。
DeepSeek 采用了无需人工干预的强化学习,这与依赖人类反馈强化学习 (RLHF) 的 AI 公司形成了鲜明对比。他们的 R1-Zero 模型完全通过自动化奖励系统学习,对数学、编程和逻辑等领域的推理任务进行自我评分。这一过程导致了自生成思维链推理的自发出现,使模型能够延长自身的推理时间,重新评估假设,并动态调整策略。虽然最初的原始输出混合了多种语言,但 DeepSeek 通过在强化学习过程中植入少量高质量的人工标注响应来改进其方法,最终开发出了 DeepSeek R1。
DeepSeek 还采用了混合专家 (MoE) 设计。MoE 是一种技术,允许模型动态选择专门的子网络或"专家"来处理输入的不同部分,显著提高效率。MoE 不是为每个查询激活整个模型,而是只激活一部分专家,在保持高性能的同时降低计算成本。这种方法使 DeepSeek 能够高效扩展,与传统的单体模型相比,在更低的功耗和延迟下提供更高的准确性。
DeepSeek 对强化学习、MoE 和后训练优化的关注,展示了一个 AI 计算基础设施更精简、更快速、更智能的未来,具有优化的内存、网络和计算能力。Foundation Capital 的普通合伙人 Ashu Garg 预测,规模本身不再保证 AI 优势。他解释说,DeepSeek 将 AI 视为系统挑战,从模型架构到硬件利用率都进行了优化。他强调,下一波 AI 创新将由利用大型模型设计复杂代理系统的初创公司引领,这些代理系统承担复杂任务而不仅仅是自动化简单任务。由于无法获得 Nvidia 的高端 H100 GPU,DeepSeek 通过重新编程每个 H800 GPU 上 132 个处理单元中的 20 个来增强跨芯片通信,从而推动了低级硬件优化的极限。此外,他们利用 FP8 量化来减少内存开销,并引入了多 token 预测,使模型能够一次生成多个词,而不是逐个 token 生成。
DeepSeek 在开源 AI 领域的成功挑战了传统的专有模型方法。其框架的广泛采用表明,AI 开发正长期向更多社区驱动的方向转变。DeepSeek 还挑战了大规模 AI 突破需要大量基础设施投资的假设。通过证明最先进的模型可以高效训练,它迫使行业领导者重新思考十亿美元 GPU 集群的必要性。
随着 AI 模型变得更加高效,整体使用量也在增加。虽然 DeepSeek 的成本效益降低了准入门槛,但这促进了采用精简 AI 架构的新创企业的涌现。这一趋势表明 AI 生态系统正在发生更广泛的转变,效率而不是原始计算能力成为核心差异化因素。
DeepSeek 并非开创全新领域,而是对现有 AI 进展进行改进和优化,展示了迭代优于创新的力量。这引发了人们对 AI 开发中先发优势是否可持续的思考,或者持续改进才是通往领导地位的真正道路。
凭借在速度、推理和可负担性方面的进步,DeepSeek 正在为 AI 驱动应用的新时代铺平道路。该行业正准备迎来能够处理复杂工作流程的 AI 代理的激增,通过提高效率、降低成本和实现以前无法实现的新用例来改变各个行业。
总的来说,DeepSeek 的崛起预示着向更易获取、更具成本效益的 AI 解决方案转变。随着行业适应,企业必须在专有创新和开放协作之间取得平衡,确保下一波 AI 发展保持高效、适应性和可扩展性。随着 AI 的不断进步,领先 AI 企业与新兴参与者之间的互动将定义技术进步的下一阶段。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。