这个剧本让人感觉异常熟悉:充满热情的推介、天文数字般的估值,以及在完全相同的 PPT 中仅仅用"生成式 AI"替换掉"电子商务"。当科技巨头在 AI 军备竞赛中投入数十亿美元时,投资者面临着一个万亿美元级的问题:我们是在见证下一个互联网时代的诞生,还是在目睹另一个投机泡沫的膨胀?
高盛坚定地站在"这一次真的不一样"的阵营。该行全球首席股票策略师 Peter Oppenheimer 用一叠表格驳斥了泡沫论,数据显示自金融危机以来,科技行业的每股收益激增了 400%,而其他行业仅增长了 25%。Oppenheimer 写道:"这种成功的驱动力在于他们利用软件和云计算的能力,以及由超常需求增长带来的高盈利能力。"
但 Oppenheimer 本人也无法忽视一些令人不安的危险信号。以 Nvidia 为首的少数科技巨头如今掌控着惊人份额的市场。
他写道:"当市场越来越依赖于少数几家公司的命运时,个股失误带来的连锁反应可能会特别严重。"与那些只需一台服务器就能创业的互联网公司不同,当今的 AI 玩家正以前所未有的速度烧钱。Oppenheimer 指出:"AI 正在推动一场重大的资本支出热潮,这可能会抑制该行业过去 15 年来的高回报率。"随着每一个揭示,他的语气愈发谨慎。
认为我们正处于泡沫中的市场观察家们直言不讳。准确预测了 2000 年崩盘的橡树资本联合创始人 Howard Marks,在其 1 月份题为"泡沫观察"的投资备忘录中贴满了"警示标志"。Marks 指出了几个令他警惕的信号:投资者无视风险追逐回报、用可疑的"新范式"论证天价估值,以及市场显示出"非理性繁荣"的典型特征。
诺贝尔经济学奖得主 Paul Krugman 认为市场正在冲向同样的悬崖,他指出标普 500 的市盈率已接近 30 倍——这与 1999 年 93 倍的水平危险地接近,Krugman 说那"看起来很疯狂,事实也确实如此"。Krugman 在这场市场重演中发现了一个转折:"AI 热潮集中在少数几家公司身上——'超级七巨头'——其中大多数已经是根深蒂固的准垄断企业。"
Krugman 抛出了一个投资者应该更常问的问题,来刺破 AI 的泡沫:"Microsoft Office 或 Google 搜索的市场还能变多大?我理解这些公司出于防御目的需要投资 AI,以抵御潜在竞争对手。但这种需求实际上应该降低而不是提高它们的盈利能力。"换句话说,Microsoft 投资 OpenAI 130 亿美元不是为了寻找新客户,而是在一场零和游戏中进行防守。
在预测科技泡沫的人中,没有人比 AI 研究员 Gary Marcus 的警告更响亮,他此前就准确预见了这项技术的局限性。在他看来,我们显然正处于一个即将破灭的泡沫中,尽管他认为生成式 AI 不会消失。
他写道:"生成式 AI 本身不会消失。但投资者可能会停止以目前的速度投入资金,热情可能会减退,许多人可能会赔得精光。"
对于在 FOMO 和财务谨慎之间摇摆的投资者来说,就连高盛也建议对冲风险。一边驳斥泡沫担忧,一边又建议"寻求多样化投资以改善风险调整后回报"。这就是华尔街的典型作风:标题唱多,注脚谨慎。
真正的争论不在于 AI 是否改变一切,而在于时机和谁能存活下来。25 年前,互联网确实改变了商业、教育和社会,但不是按照互联网投资者预期的时间表和方式。Amazon 从废墟中崛起,但其股票曾暴跌 90%。Google 蓬勃发展,但 Excite、Lycos 和 AltaVista 都消失了。
正如 Marcus 指出的,今天的 AI 宠儿们面临着类似的清算:"目前估值数十亿美元的公司可能会倒闭或被分拆。去年的宠儿们很少能达到近期的预期。"
AI 革命正在到来。但革命往往会吞噬一些最早和最热情的追随者。
好文章,需要你的鼓励
DeepResearchGym是一个创新的开源评估框架,专为深度研究系统设计,旨在解决当前依赖商业搜索API带来的透明度和可重复性挑战。该系统由卡内基梅隆大学研究团队开发,结合了基于ClueWeb22和FineWeb大型网络语料库的可重复搜索API与严格的评估协议。实验表明,使用DeepResearchGym的系统性能与使用商业API相当,且在评估指标间保持一致性。人类评估进一步证实了自动评估协议与人类偏好的一致性,验证了该框架评估深度研究系统的有效性。
这项研究介绍了FinTagging,首个面向大型语言模型的全面财务信息提取与结构化基准测试。不同于传统方法,它将XBRL标记分解为数值识别和概念链接两个子任务,能同时处理文本和表格数据。在零样本测试中,DeepSeek-V3和GPT-4o表现最佳,但在细粒度概念对齐方面仍面临挑战,揭示了当前大语言模型在自动化XBRL标记领域的局限性,为金融AI发展提供了新方向。
这项研究介绍了SweEval,一个新型基准测试,用于评估大型语言模型在企业环境中处理脏话的能力。研究团队从Oracle AI等多家机构的专家创建了一个包含八种语言的测试集,模拟不同语调和上下文的真实场景。实验结果显示,LLM在英语中较少使用脏话,但在印地语等低资源语言中更易受影响。研究还发现较大模型通常表现更好,且多语言模型如Llama系列在处理不当提示方面优于其他模型。这项工作对企业采用AI技术时的安全考量提供了重要参考。
这项研究提出了"VeriFree"——一种不需要验证器的方法,可以增强大型语言模型(LLM)的通用推理能力。传统方法如DeepSeek-R1-Zero需要验证答案正确性,限制了其在数学和编程以外领域的应用。VeriFree巧妙地计算正确答案在模型生成的推理过程后出现的概率,作为评估和训练信号。实验表明,这种方法不仅能匹配甚至超越基于验证器的方法,还大幅降低了计算资源需求,同时消除了"奖励黑客"问题。这一突破将有助于开发出在化学、医疗、法律等广泛领域具有更强推理能力的AI系统。