在科技界又是戏剧性的一周,IBM 公司的股票表现令人瞩目,创下自 2000 年以来最佳单日涨幅。
在最新一期的 CUBE Podcast 中,theCUBE Research 分析师 John Furrier (左图) 和 Dave Vellante (右图) 深入分析了 IBM 股票的走势及其对整个行业的影响。这个话题也是 Furrier 最近在 LinkedIn 上发表的文章重点。Furrier 认为,IBM 可能从 DeepSeek 那里得到了一份意外之礼。
"有一类公司...他们在 AI 战略方面的整体价值主张有些令人困惑," 他说。"但像 IBM 的 Arvind (Krishna)、现在作为 IBM 一部分的 Red Hat 的 CEO Matt Hicks 这样的聪明人,这些公司的战略定位虽然难以解读,但被 DeepSeek 完全解构了。"
IBM 股票与 DeepSeek 的 ChatGPT 时刻
根据 Furrier 的说法,DeepSeek 刚刚经历了属于自己的 ChatGPT 时刻——这种时刻能够震撼世界,就像 ChatGPT 首次让消费者惊叹并让 AI 显得如此神奇一样。DeepSeek 则是这种效应的技术性版本。
"DeepSeek 时刻表明,'确实存在许多人没有发现的创新',我们上周已经对此进行了深入分析。IBM 一直在这么做," Furrier 说。
Furrier 指出,虽然情况较为微妙,但 DeepSeek 实际上使 IBM 受益。IBM 在投资者会议上会推介他们的 Granite 模型,强调其性能和成本优势。
"随着成本持续大幅下降,速度和性能不断提升,我们正处于你所说的创新超级周期中," Furrier 说。"DeepSeek 时刻对于像 IBM 这样没有大型云业务的公司来说,是一个企业 AI 时刻。"
Furrier 在他的博客文章中指出,DeepSeek 时刻突显了模型集成的复杂性,IBM 有效地为其现有客户群、初创公司和开发者搭建了一个集成层。这正在引领一个新时代。
"这将带来新型开发者模式的寒武纪大爆发,而不是传统的'这是一个开发环境,在上面构建并从中获取收益'的老套路," 他说。"现在不是这样了。我认为这将更多地是一种高度协作的互联集成。"
根据 Furrier 的说法,DeepSeek 让集成的价值主张变得清晰可见。IBM 在过去一年半时间里一直在这么做,IBM 的股价也相应做出了反应。
云计算转变,AI 主导
很明显,在 IBM 股价飙升的同时,公司并非在转型而是在加速发展,这让未来的发展前景变得更加有趣。根据 Vellante 的说法,云服务供应商也出现了一些有趣的趋势。
"我本周的分析主题是'投资者对云计算热情减退,但 CEO 们加倍投入'," Vellante 说。"Sundar、Andy、Satya 和 Zuck,他们都很好地理解指数增长。他们有世界上最聪明的人才在研究这些项目,明年他们将因为 AI 投入超过 3000 亿美元的资本支出。"
在 Microsoft 最近的财报电话会议上,公司表示他们在云计算方面的问题出在非 AI 执行上,虽然他们没有直接用这个词,而是用了"规模执行"这样的说法。
"他们的意思是,'我们的合作伙伴没有把事情办好,他们没有销售旧产品;他们过度转向 AI,因为 AI 太火爆了'," Vellante 说。"那这告诉我们什么?我说过多少次,John,旧东西要么持平要么下降,新东西很热门,增长率达到三位数,但还不够大,不足以抵消旧业务的下降。"
活动日程更新与展望
根据 Furrier 的说法,随着活动季的展开,这可能是自 2018 年以来 theCUBE 最繁忙的一年。这包括即将与纽约证券交易所合作的 Super Studio 活动,将于 2 月 14 日迎接硅谷顶尖 CMO 领袖,探讨人工智能创新计划。
展望未来几个月,Furrier 指出,第一波是 ChatGPT 带来的炒作和实验浪潮,第二波看到了广泛的 RAG 搜索实施但陷入了概念验证的困境,现在开发者已准备好创造真正的价值。接下来可能会出现更多类似 IBM 股票这样的情况。
"你开始看到人们通过开发者生产力的提升,找到类似 DeepSeek 的方式。我认为你会看到突破性进展," Furrier 说。
好文章,需要你的鼓励
DeepResearchGym是一个创新的开源评估框架,专为深度研究系统设计,旨在解决当前依赖商业搜索API带来的透明度和可重复性挑战。该系统由卡内基梅隆大学研究团队开发,结合了基于ClueWeb22和FineWeb大型网络语料库的可重复搜索API与严格的评估协议。实验表明,使用DeepResearchGym的系统性能与使用商业API相当,且在评估指标间保持一致性。人类评估进一步证实了自动评估协议与人类偏好的一致性,验证了该框架评估深度研究系统的有效性。
这项研究介绍了FinTagging,首个面向大型语言模型的全面财务信息提取与结构化基准测试。不同于传统方法,它将XBRL标记分解为数值识别和概念链接两个子任务,能同时处理文本和表格数据。在零样本测试中,DeepSeek-V3和GPT-4o表现最佳,但在细粒度概念对齐方面仍面临挑战,揭示了当前大语言模型在自动化XBRL标记领域的局限性,为金融AI发展提供了新方向。
这项研究介绍了SweEval,一个新型基准测试,用于评估大型语言模型在企业环境中处理脏话的能力。研究团队从Oracle AI等多家机构的专家创建了一个包含八种语言的测试集,模拟不同语调和上下文的真实场景。实验结果显示,LLM在英语中较少使用脏话,但在印地语等低资源语言中更易受影响。研究还发现较大模型通常表现更好,且多语言模型如Llama系列在处理不当提示方面优于其他模型。这项工作对企业采用AI技术时的安全考量提供了重要参考。
这项研究提出了"VeriFree"——一种不需要验证器的方法,可以增强大型语言模型(LLM)的通用推理能力。传统方法如DeepSeek-R1-Zero需要验证答案正确性,限制了其在数学和编程以外领域的应用。VeriFree巧妙地计算正确答案在模型生成的推理过程后出现的概率,作为评估和训练信号。实验表明,这种方法不仅能匹配甚至超越基于验证器的方法,还大幅降低了计算资源需求,同时消除了"奖励黑客"问题。这一突破将有助于开发出在化学、医疗、法律等广泛领域具有更强推理能力的AI系统。