DeepSeek 今天发布了其 DeepSeek-V3 大语言模型的改进版本,并采用了新的开源许可证。
软件开发者兼博主 Simon Willison 率先报道了这一更新。DeepSeek 本身并未发布公告。新模型的 Readme 文件 (代码仓库中通常包含说明注释的组件) 目前仍是空白的。
DeepSeek-V3 是一个于去年 12 月首次亮相的开源大语言模型。它是 DeepSeek-R1 的基础,而 DeepSeek-R1 是一个推理模型,今年早些时候使这家中国人工智能实验室声名鹊起。DeepSeek-V3 是一个通用模型,并非专门针对推理进行优化,但它可以解决一些数学问题并生成代码。
在此之前,该大语言模型是在自定义开源许可证下发布的。DeepSeek 今天推出的新版本改用了广泛使用的 MIT 许可证。开发者几乎可以不受任何限制地在商业项目中使用和修改更新后的模型。
更值得注意的是,新版 DeepSeek-V3 似乎比原版更强大且硬件效率更高。
大多数最先进的大语言模型只能在数据中心的图形卡上运行。Apple Inc. 机器学习研究组的研究科学家 Awni Hannun 在 Mac Studio 上运行了新版 DeepSeek-V3。该模型能够以每秒约 20 个 token 的速率生成输出。
这台 Mac Studio 采用了售价 9,499 美元的高端配置。在该机器上部署 DeepSeek-V3 需要应用 4 位量化。这是一种大语言模型优化技术,通过牺牲一些输出精度来换取更低的内存使用和延迟。
根据 VentureBeat 发现的一条 X 平台帖子,新版 DeepSeek-V3 在编程方面比原版更出色。该帖子包含了一个评估模型生成 Python 和 Bash 代码能力的基准测试。新版本获得了约 60% 的得分,比原版 DeepSeek-V3 高出几个百分点。
该模型仍落后于 DeepSeek-R1 (该 AI 实验室的旗舰推理优化大语言模型)。最新的 DeepSeek-V3 版本的得分也低于另一个推理优化模型 Qwen-32B。
尽管 DeepSeek-V3 拥有 6,710 亿个参数,但在回答提示时只激活约 370 亿个参数。这种设计使模型比传统的激活所有参数的大语言模型需要更少的基础设施。据 DeepSeek 称,该大语言模型的效率也高于 DeepSeek-R1,这降低了推理成本。
原版 DeepSeek-V3 的训练数据集包含 14.8 万亿个 token。训练过程使用了约 280 万个显卡小时,显著低于前沿大语言模型通常所需的时间。为了提高模型的输出质量,DeepSeek 工程师使用来自 DeepSeek-R1 的提示响应对其进行了微调。
好文章,需要你的鼓励
Anthropic发布SCONE-bench智能合约漏洞利用基准测试,评估AI代理发现和利用区块链智能合约缺陷的能力。研究显示Claude Opus 4.5等模型可从漏洞中获得460万美元收益。测试2849个合约仅需3476美元成本,发现两个零日漏洞并创造3694美元利润。研究表明AI代理利用安全漏洞的能力快速提升,每1.3个月翻倍增长,强调需要主动采用AI防御技术应对AI攻击威胁。
NVIDIA联合多所高校开发的SpaceTools系统通过双重交互强化学习方法,让AI学会协调使用多种视觉工具进行复杂空间推理。该系统在空间理解基准测试中达到最先进性能,并在真实机器人操作中实现86%成功率,代表了AI从单一功能向工具协调专家的重要转变,为未来更智能实用的AI助手奠定基础。
Spotify年度总结功能回归,在去年AI播客功能遭遇批评后,今年重新专注于用户数据深度分析。新版本引入近十项新功能,包括首个实时多人互动体验"Wrapped Party",最多可邀请9位好友比较听歌数据。此外还新增热门歌曲播放次数显示、互动歌曲测验、听歌年龄分析和听歌俱乐部等功能,让年度总结更具互动性和个性化体验。
这项研究解决了现代智能机器人面临的"行动不稳定"问题,开发出名为TACO的决策优化系统。该系统让机器人在执行任务前生成多个候选方案,然后通过伪计数估计器选择最可靠的行动,就像为机器人配备智能顾问。实验显示,真实环境中机器人成功率平均提升16%,且系统可即插即用无需重新训练,为机器人智能化发展提供了新思路。