在各大超大规模云计算服务商都在竞相打造最大、最好的模型或模型集合,以赢得 AI 竞赛并成为商业级模型领域的 Microsoft 或 Red Hat 的同时,AI 硬件的采购和 AI 模型架构的突破并不能完全反映企业对 AI 的实际采用情况,即使这些云服务商已经吸引了大量企业在其平台上进行尝试。
如果要测试大型企业对 AI 的采用程度,Cisco Systems 可能是最好的参照。全球有超过 90,000 家企业使用其统一计算系统 (UCS) 融合服务器-交换机产品,同时 Cisco 在数据中心交换和路由市场仍占主导地位。如果 Cisco 能从 AI 系统中获得收益,就说明 AI 已经进入主流市场。
这一点并不适用于 Dell、Hewlett Packard Enterprise 或联想等公司,尽管它们在传统 HPC 仿真和建模领域的计算、存储和网络设备销售方面都有稳固的业务。Supermicro 已成为超大规模和云服务商 AI 系统的主要供应商之一,但在企业市场的份额相对较小(不过正在增长)。
因此,我们密切关注 Cisco,以观察企业计算的转型以及在其庞大的、以 UCS 设备为核心业务应用的客户群中 AI 的采用情况。
到目前为止,我们对 Cisco 将 AI 融入其产品的方式印象深刻,其收购 Splunk 的举措也有助于保存和分析海量遥测数据,这些数据可用于 IT 系统管理的 AI 系统以及商业应用。但与数据中心领域的竞争对手相比,我们尚未看到 AI 系统订单的显著增长。
在 Cisco 2025 财年第二季度(截至 1 月 25 日)财报电话会议上,首席执行官 Chuck Robbins 和首席财务官 Scott Herren 重申,Cisco 在 2024 财年(截至 2024 年 7 月)获得了 10 亿美元的 AI 相关订单,并有望在 2025 财年突破 10 亿美元订单。
我们认为 Robbins 和 Herren 低估了 2025 年的 AI 订单预测——这种情况在其他谨慎的 IT 供应商中也很常见。(例如,AMD 最初预计 2024 日历年 GPU 销售额将超过 20 亿美元,后来多次上调至 45 亿美元,最终在去年年底超过 50 亿美元。)我们认为订单增长率在 2024 财年加速。在 2025 财年,Cisco 更明确地表示,第一季度订单为 3.47 亿美元,第二季度为 3.55 亿美元,Robbins 进一步表示,本财年约一半的收入来自商用芯片(我们认为主要是 Silicon One 交换芯片)和系统。我们还认为,其中很大一部分来自电信和服务提供商,他们正在建设网络和基础设施,为添加 AI 增强的应用和服务做准备。
这让我们看到了预测保守的一面。2025 财年迄今为止,AI 订单已超过 7 亿美元,这意味着剩余两个季度只能分配 3 亿美元。我们认为这个数字不会下降,实际上很可能会继续增长。根据我们当前的 AI 订单模型趋势,我们预计 Cisco 的 AI 相关收入可能在 16-17 亿美元之间。(这仅指 AI 系统组件,不包括 Cisco 也在销售的 AI 驱动的软件和工具。)
如果 Cisco 能为其 GPU 加速系统注入 UCS 特色(去年 6 月发布并已开始出货的 Nexus HyperFabric AI 集群就是数据中心规模的 UCS),并在客户添加 AI 功能时保持他们继续使用 UCS,那么我们认为 Cisco 完全有可能使其系统收入翻倍,并看到其 Silicon One ASIC 和基于该芯片的交换机获得更大的市场份额。当然,这需要时间,就像积累 90,000 个 UCS 客户花了十五年一样。
实际上,这将随着 AI 重点从训练转向推理而发生。Robbins 在电话会议上表示,AI 推理的机会比世界已经看到的 AI 训练"高出一个数量级"。
在此期间,Cisco 必须继续销售现有产品。
在 1 月季度,Cisco 的收入为 139.9 亿美元,同比增长 9.4%,环比增长 1.1%。然而,由于成本增长快于销售额,季度净利润下降 7.8% 至 24.3 亿美元。(利息支出也大幅增加。)
Cisco 季末的债务为 168.5 亿美元,同比下降 34.4%,环比下降 9.7%。Cisco 有 114.1 亿美元的短期债务和 196.3 亿美元的长期债务,这些债务由现金和 118 亿美元的递延收入所抵消。
本季度,服务业务相对稳定,如上图所示,增长 5.6% 至 37.6 亿美元。产品销售(对 Cisco 来说仍主要是交易性质的)增长 10.9% 至 102.3 亿美元。
Cisco 的网络产品近年来一直在消化巨大的积压订单,如上图所示,这个积压泡沫现已消失,Cisco 正回归到每季度略低于 70 亿美元的网络销售稳定状态。
具体来说,该公司的交换和路由产品在第二财季的销售额合计为 68.5 亿美元,同比下降 3.3%,但环比略有增长。服务器销售也计入这个网络业务组。
我们有一个追溯到 2009 财年大衰退时期的模型,那时第一代"加利福尼亚"UCS 融合服务器-交换机系统推出,给所有数据中心的传统服务器制造商带来了巨大冲击。从那时起,我们一直在试图计算 Cisco 每季度"真实"的数据中心系统业务收入流。这是我们的最佳估计。
如果用积压订单泡沫填补新冠疫情期间的积压空缺,这确实是一个非常稳定的业务。
好文章,需要你的鼓励
DeepResearchGym是一个创新的开源评估框架,专为深度研究系统设计,旨在解决当前依赖商业搜索API带来的透明度和可重复性挑战。该系统由卡内基梅隆大学研究团队开发,结合了基于ClueWeb22和FineWeb大型网络语料库的可重复搜索API与严格的评估协议。实验表明,使用DeepResearchGym的系统性能与使用商业API相当,且在评估指标间保持一致性。人类评估进一步证实了自动评估协议与人类偏好的一致性,验证了该框架评估深度研究系统的有效性。
这项研究介绍了FinTagging,首个面向大型语言模型的全面财务信息提取与结构化基准测试。不同于传统方法,它将XBRL标记分解为数值识别和概念链接两个子任务,能同时处理文本和表格数据。在零样本测试中,DeepSeek-V3和GPT-4o表现最佳,但在细粒度概念对齐方面仍面临挑战,揭示了当前大语言模型在自动化XBRL标记领域的局限性,为金融AI发展提供了新方向。
这项研究介绍了SweEval,一个新型基准测试,用于评估大型语言模型在企业环境中处理脏话的能力。研究团队从Oracle AI等多家机构的专家创建了一个包含八种语言的测试集,模拟不同语调和上下文的真实场景。实验结果显示,LLM在英语中较少使用脏话,但在印地语等低资源语言中更易受影响。研究还发现较大模型通常表现更好,且多语言模型如Llama系列在处理不当提示方面优于其他模型。这项工作对企业采用AI技术时的安全考量提供了重要参考。
这项研究提出了"VeriFree"——一种不需要验证器的方法,可以增强大型语言模型(LLM)的通用推理能力。传统方法如DeepSeek-R1-Zero需要验证答案正确性,限制了其在数学和编程以外领域的应用。VeriFree巧妙地计算正确答案在模型生成的推理过程后出现的概率,作为评估和训练信号。实验表明,这种方法不仅能匹配甚至超越基于验证器的方法,还大幅降低了计算资源需求,同时消除了"奖励黑客"问题。这一突破将有助于开发出在化学、医疗、法律等广泛领域具有更强推理能力的AI系统。