风险投资家和创始人一直在积极讨论 DeepSeek 对硅谷的影响。作为人工智能领域的新兴力量,DeepSeek 的快速崛起引发了人们对 AI 创新未来、开源主导地位以及传统 AI 商业模式可持续性的思考。讨论的焦点在于 DeepSeek 是否代表了一种范式转变还是短暂的颠覆,以及现有的 AI 企业应如何适应这个不断发展的格局。
DeepSeek 在 AI 开发者领域迅速崛起,在 Hugging Face 排名中名列前茅,并确立了自己作为主导开源力量的地位。其注重速度、成本效益和可访问性的方法,在全球 AI 研究社区中赢得了巨大的好评。与竞争对手相比,DeepSeek 以较低的成本运营,在不依赖重型基础设施的情况下提供尖端能力。
虽然新闻头条在猜测 AI 主导地位的转变,但实际情况更为微妙:DeepSeek 的创新正促使现有参与者重新思考其战略,鼓励向更精简、更高效的 AI 模型转变。
DeepSeek 的成功源于其对效率和技术创新的关注。该公司凭借其 DeepSeek Coder 和 DeepSeek-V3 模型在代码生成和自然语言处理方面的出色表现而备受关注。
DeepSeek 采用了无需人工干预的强化学习,这与依赖人类反馈强化学习 (RLHF) 的 AI 公司形成了鲜明对比。他们的 R1-Zero 模型完全通过自动化奖励系统学习,对数学、编程和逻辑等领域的推理任务进行自我评分。这一过程导致了自生成思维链推理的自发出现,使模型能够延长自身的推理时间,重新评估假设,并动态调整策略。虽然最初的原始输出混合了多种语言,但 DeepSeek 通过在强化学习过程中植入少量高质量的人工标注响应来改进其方法,最终开发出了 DeepSeek R1。
DeepSeek 还采用了混合专家 (MoE) 设计。MoE 是一种技术,允许模型动态选择专门的子网络或"专家"来处理输入的不同部分,显著提高效率。MoE 不是为每个查询激活整个模型,而是只激活一部分专家,在保持高性能的同时降低计算成本。这种方法使 DeepSeek 能够高效扩展,与传统的单体模型相比,在更低的功耗和延迟下提供更高的准确性。
DeepSeek 对强化学习、MoE 和后训练优化的关注,展示了一个 AI 计算基础设施更精简、更快速、更智能的未来,具有优化的内存、网络和计算能力。Foundation Capital 的普通合伙人 Ashu Garg 预测,规模本身不再保证 AI 优势。他解释说,DeepSeek 将 AI 视为系统挑战,从模型架构到硬件利用率都进行了优化。他强调,下一波 AI 创新将由利用大型模型设计复杂代理系统的初创公司引领,这些代理系统承担复杂任务而不仅仅是自动化简单任务。由于无法获得 Nvidia 的高端 H100 GPU,DeepSeek 通过重新编程每个 H800 GPU 上 132 个处理单元中的 20 个来增强跨芯片通信,从而推动了低级硬件优化的极限。此外,他们利用 FP8 量化来减少内存开销,并引入了多 token 预测,使模型能够一次生成多个词,而不是逐个 token 生成。
DeepSeek 在开源 AI 领域的成功挑战了传统的专有模型方法。其框架的广泛采用表明,AI 开发正长期向更多社区驱动的方向转变。DeepSeek 还挑战了大规模 AI 突破需要大量基础设施投资的假设。通过证明最先进的模型可以高效训练,它迫使行业领导者重新思考十亿美元 GPU 集群的必要性。
随着 AI 模型变得更加高效,整体使用量也在增加。虽然 DeepSeek 的成本效益降低了准入门槛,但这促进了采用精简 AI 架构的新创企业的涌现。这一趋势表明 AI 生态系统正在发生更广泛的转变,效率而不是原始计算能力成为核心差异化因素。
DeepSeek 并非开创全新领域,而是对现有 AI 进展进行改进和优化,展示了迭代优于创新的力量。这引发了人们对 AI 开发中先发优势是否可持续的思考,或者持续改进才是通往领导地位的真正道路。
凭借在速度、推理和可负担性方面的进步,DeepSeek 正在为 AI 驱动应用的新时代铺平道路。该行业正准备迎来能够处理复杂工作流程的 AI 代理的激增,通过提高效率、降低成本和实现以前无法实现的新用例来改变各个行业。
总的来说,DeepSeek 的崛起预示着向更易获取、更具成本效益的 AI 解决方案转变。随着行业适应,企业必须在专有创新和开放协作之间取得平衡,确保下一波 AI 发展保持高效、适应性和可扩展性。随着 AI 的不断进步,领先 AI 企业与新兴参与者之间的互动将定义技术进步的下一阶段。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。