DeepSeek 今天发布了其 DeepSeek-V3 大语言模型的改进版本,并采用了新的开源许可证。
软件开发者兼博主 Simon Willison 率先报道了这一更新。DeepSeek 本身并未发布公告。新模型的 Readme 文件 (代码仓库中通常包含说明注释的组件) 目前仍是空白的。
DeepSeek-V3 是一个于去年 12 月首次亮相的开源大语言模型。它是 DeepSeek-R1 的基础,而 DeepSeek-R1 是一个推理模型,今年早些时候使这家中国人工智能实验室声名鹊起。DeepSeek-V3 是一个通用模型,并非专门针对推理进行优化,但它可以解决一些数学问题并生成代码。
在此之前,该大语言模型是在自定义开源许可证下发布的。DeepSeek 今天推出的新版本改用了广泛使用的 MIT 许可证。开发者几乎可以不受任何限制地在商业项目中使用和修改更新后的模型。
更值得注意的是,新版 DeepSeek-V3 似乎比原版更强大且硬件效率更高。
大多数最先进的大语言模型只能在数据中心的图形卡上运行。Apple Inc. 机器学习研究组的研究科学家 Awni Hannun 在 Mac Studio 上运行了新版 DeepSeek-V3。该模型能够以每秒约 20 个 token 的速率生成输出。
这台 Mac Studio 采用了售价 9,499 美元的高端配置。在该机器上部署 DeepSeek-V3 需要应用 4 位量化。这是一种大语言模型优化技术,通过牺牲一些输出精度来换取更低的内存使用和延迟。
根据 VentureBeat 发现的一条 X 平台帖子,新版 DeepSeek-V3 在编程方面比原版更出色。该帖子包含了一个评估模型生成 Python 和 Bash 代码能力的基准测试。新版本获得了约 60% 的得分,比原版 DeepSeek-V3 高出几个百分点。
该模型仍落后于 DeepSeek-R1 (该 AI 实验室的旗舰推理优化大语言模型)。最新的 DeepSeek-V3 版本的得分也低于另一个推理优化模型 Qwen-32B。
尽管 DeepSeek-V3 拥有 6,710 亿个参数,但在回答提示时只激活约 370 亿个参数。这种设计使模型比传统的激活所有参数的大语言模型需要更少的基础设施。据 DeepSeek 称,该大语言模型的效率也高于 DeepSeek-R1,这降低了推理成本。
原版 DeepSeek-V3 的训练数据集包含 14.8 万亿个 token。训练过程使用了约 280 万个显卡小时,显著低于前沿大语言模型通常所需的时间。为了提高模型的输出质量,DeepSeek 工程师使用来自 DeepSeek-R1 的提示响应对其进行了微调。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。