DeepSeek 今天发布了其 DeepSeek-V3 大语言模型的改进版本,并采用了新的开源许可证。
软件开发者兼博主 Simon Willison 率先报道了这一更新。DeepSeek 本身并未发布公告。新模型的 Readme 文件 (代码仓库中通常包含说明注释的组件) 目前仍是空白的。
DeepSeek-V3 是一个于去年 12 月首次亮相的开源大语言模型。它是 DeepSeek-R1 的基础,而 DeepSeek-R1 是一个推理模型,今年早些时候使这家中国人工智能实验室声名鹊起。DeepSeek-V3 是一个通用模型,并非专门针对推理进行优化,但它可以解决一些数学问题并生成代码。
在此之前,该大语言模型是在自定义开源许可证下发布的。DeepSeek 今天推出的新版本改用了广泛使用的 MIT 许可证。开发者几乎可以不受任何限制地在商业项目中使用和修改更新后的模型。
更值得注意的是,新版 DeepSeek-V3 似乎比原版更强大且硬件效率更高。
大多数最先进的大语言模型只能在数据中心的图形卡上运行。Apple Inc. 机器学习研究组的研究科学家 Awni Hannun 在 Mac Studio 上运行了新版 DeepSeek-V3。该模型能够以每秒约 20 个 token 的速率生成输出。
这台 Mac Studio 采用了售价 9,499 美元的高端配置。在该机器上部署 DeepSeek-V3 需要应用 4 位量化。这是一种大语言模型优化技术,通过牺牲一些输出精度来换取更低的内存使用和延迟。
根据 VentureBeat 发现的一条 X 平台帖子,新版 DeepSeek-V3 在编程方面比原版更出色。该帖子包含了一个评估模型生成 Python 和 Bash 代码能力的基准测试。新版本获得了约 60% 的得分,比原版 DeepSeek-V3 高出几个百分点。
该模型仍落后于 DeepSeek-R1 (该 AI 实验室的旗舰推理优化大语言模型)。最新的 DeepSeek-V3 版本的得分也低于另一个推理优化模型 Qwen-32B。
尽管 DeepSeek-V3 拥有 6,710 亿个参数,但在回答提示时只激活约 370 亿个参数。这种设计使模型比传统的激活所有参数的大语言模型需要更少的基础设施。据 DeepSeek 称,该大语言模型的效率也高于 DeepSeek-R1,这降低了推理成本。
原版 DeepSeek-V3 的训练数据集包含 14.8 万亿个 token。训练过程使用了约 280 万个显卡小时,显著低于前沿大语言模型通常所需的时间。为了提高模型的输出质量,DeepSeek 工程师使用来自 DeepSeek-R1 的提示响应对其进行了微调。
好文章,需要你的鼓励
AI 搜索初创公司 Perplexity 提出收购并改造 TikTok 的方案,包括重建算法、开源推荐系统、升级 AI 基础设施等。该公司声称有独特优势可避免垄断,但面临来自 Oracle、Microsoft 等竞争对手的挑战。考虑到 Perplexity 此前的营销行为,这一提议的真实性尚不明确。
据报道,苹果正计划在未来两年内为 Apple Watch 添加摄像头,以支持包括 Apple Intelligence 在内的人工智能功能。该公司考虑在 2027 年前为标准系列和 Ultra 型号手表添加摄像头,这一趋势反映了智能手机制造商对 AI 功能的日益重视。
英伟达提出"AI工厂"概念作为大规模创建AI系统的新范式,将AI开发比作工业流程:原始数据输入,通过计算精炼,最终产出有价值的智能模型。本文深入探讨英伟达的AI工厂愿景,解析其如何实现智能的工业化生产。
iOS 18.4 更新为苹果智能系统增添多项实用功能,包括优先级通知、视觉智能扩展支持和应用商店评论摘要等创新特性。