近期,Elon Musk 的新项目仿佛从地底突然冒出。
世界最大的 Colossus 数据中心如今已成为现实。它每天消耗大量电力,运转强劲,表面上是为了驱动新版本的 Grok AI 模型。
科技分析师对其实施速度和数据中心的相对规模感到惊叹。一些当地人则担心缺乏传统的规划和文书工作。而竞争对手则明显感到紧张,部分原因是 XAI 使用了 Nvidia 的硬件,而该公司正在股市上一路飙升。
考虑到这些,让我们来看看这个前所未有的项目的三个重大关注点。
1. 建设速度惊人
本周早些时候,我听到 Nvidia CEO Jensen Huang 的评论(后来被科技媒体广泛报道),他提到这个拥有 10 万个 GPU 的数据中心是在几周内而非几个月内建成的。基于 Huang 的评论,"19 天"这个数字被广泛传播,而 Musk 据报道使用了 122 天的时间框架。
在这个通常需要大量规划时间的领域,这是一个全新的概念。
当你去核实这些数字时,你会得到一系列的回应,其中一些看起来像是 AI 写的网站。
然而,你可以直接问 ChatGPT,得到这样的回答:
"XAI 在田纳西州孟菲斯市建造 Colossus 超级计算机用了 122 天。这一快速开发是通过与 Supermicro 的合作实现的,后者提供了必要的硬件和基础设施。配备了 10 万个 NVIDIA H100 GPU 的 Colossus 超级计算机于 2024 年 7 月开始运营。这一迅速的建设时间表凸显了 xAI 致力于推进人工智能能力的承诺。"
确实,这速度相当快。
2. 数据中心上空的无人机
让我们从这个问题开始:为什么有人想要在 Colossus 数据中心上空驾驶无人机?
The Verge 和 The Information 等媒体报道称,竞争对手正在使用无人机至少对 XAI 的外部进行观察,以试图预测其对市场的影响。
这让人们开始质疑在数据中心上空飞行无人机是否合法。普遍的回应似乎是,虽然这并不违反地方条例或特定的联邦法规,但确实违反了 FAA 的规定和指导方针。
Colossus 项目还涉及其他法律问题,包括对污染的担忧,以及 XAI 使用大量水来冷却数据中心。
事实上,这正在成为今天科技媒体报道中一个规模大、引人注目的项目的重要部分。
3. XAI 是否使用 Colossus 来建造 Colossus?
这个问题可能看起来像是一个小细节,但在理解 AI 如何影响我们自己的新闻报道和个人研究方面很重要。
我将其称为"双重命名问题"。
在研究 Colossus 时,我偶然发现了一个数据中心咨询公司的网页,有趣的是,该公司也叫 Colossus。
为了帮助设定背景:这类似于有人研究一位专业人士从 Meta 的 AI 部门转移到 OpenAI 的新 Orion 模型工作,然后发现 Meta 之前的 AR 可穿戴设备活动(该活动会使用新模型)也叫 Orion。
简而言之,这很令人困惑。
现在,假设一个记者(或任何其他研究此事的人)想知道是否咨询了 Colossus 公司来建造 Colossus 数据中心。
该公司本身只有一个网页联系表单。没有电话号码。因此,无法以记者在 2018 年左右会采用的正常人工方式进行验证。
事实上,AI 可能更容易填写该表单,发送它,并寻找回应。
同时,如果你把这个问题输入 ChatGPT,你会得到这样的回答:
"没有公开可用的信息表明 XAI 在开发他们的 Colossus 数据中心时使用了咨询公司 Colossus 的服务。位于田纳西州孟菲斯的 Colossus 数据中心是与 Supermicro 合作建造的,后者提供了必要的硬件和基础设施。咨询公司 Colossus 专门从事数据中心选址、资产转换、可持续发展和投资策略。然而,没有证据表明 XAI 为其数据中心项目聘请了这家公司。"
你可能会说这"对政府工作来说已经足够好了"。你可以引用这个回答,说你找不到任何将咨询公司与该项目联系起来的公开信息。然后你可以洗手不管这整件事,继续下一个话题。
最后的结论是,随着这个开创性项目以令人眼花缭乱的速度发展,报道科技世界正在发生的事情也变得越来越困难,传统新闻媒体的数字形式正在与 AI 本身的产品竞争人类的注意力。所有这些在 Colossus 实际如何处理所有这些数据的背景下都很重要。请继续关注。
好文章,需要你的鼓励
来自香港科技大学和MiniMax的研究团队开发了SynLogic,一个可合成35种逻辑推理任务的框架与数据集,填补了AI逻辑训练资源缺口。研究表明,在SynLogic上进行强化学习训练显著提升了模型逻辑推理能力,32B模型在BBEH测试中超越了DeepSeek-R1-Distill模型6个百分点。更值得注意的是,将SynLogic与数学和编程数据混合训练不仅提高了这些领域的学习效率,还增强了模型的泛化能力,表明逻辑推理是构建通用AI推理能力的重要基础。
这项研究揭示了大型语言模型的惊人能力:只需两个特殊训练的向量,冻结的语言模型就能在一次计算中生成数百个准确词汇,而非传统的逐词生成。研究者发现,这种能力要求特定的输入排列方式,且生成速度比自回归方法快约279倍。这一发现不仅展示了语言模型未被充分探索的并行生成潜力,还为快速文本重建开辟了新方向。
腾讯混元团队提出的"ConciseR"是一种通过两阶段强化学习实现大模型简洁推理的新方法。研究遵循"先走后跑"原则,先确保模型具备准确推理能力,再优化输出简洁性。第一阶段通过改进的群体相对策略优化(GRPO++)提升推理能力,第二阶段通过长度感知的群体相对策略优化(L-GRPO)减少输出长度。实验结果显示,该方法在AIME、MATH-500等多个基准测试中既减少了输出长度(平均20%以上),又保持或提高了准确率,展现出高效率-高准确率的理想平衡。
这项由香港科技大学团队开展的研究首次全面评估了压缩对大语言模型Agent能力的影响。研究发现,虽然4位量化能较好地保留工作流生成和工具使用能力(仅下降1%-3%),但在实际应用中性能下降达10%-15%。团队提出的ACBench基准测试横跨工具使用、工作流生成、长文本理解和实际应用四大能力,评估了不同压缩方法对15种模型的影响。结果显示,AWQ量化效果最佳,蒸馏模型在Agent任务上表现不佳,大型模型对压缩更具韧性。研究还提出ERank等创新分析方法,为实际部署提供了切实指导。