有时候,业内人士会发表一些见解,将人们对 AI 发展方向的诸多想法进行提炼总结。
在 AI Daily Brief 最新一期中,Nathaniel Whittemore 分析了 Sam Altman 的一篇名为"三个观察"的新博文。
在开始分析之前,Whittemore 先讨论了超级碗广告,比如 ChatGPT 的广告,以及由 Woody Harrelson 和 Matthew McConaughey 主演的 Salesforce "特工部队"广告。随后他开始解析 Altman 的新文章。
在这篇文章中,Altman 一开始就详细阐述了三个主要观察。第一个是模型的智能程度大致等于用于训练和运行它的资源的对数。这为公司从这类项目获得的投资回报提供了一个粗略的概念,也让我们对规模化有了一些见解。
Altman 的第二个观察是,特定智能水平的成本每年下降 10 倍。其他人也认识到这一点,并看到这些巨大的进步如何推动着指数级的发展曲线。Altman 还补充说,较低的价格会导致使用量大幅增加,这体现了杰文悖论 (我们大多数人现在才开始听说这个概念:简而言之,杰文认为当获得新能力时,人们最终会利用资源效率来做更多事情,而不是保持价值)。
第三个观察是"智能的社会经济价值是超指数级的"。
"世界不会一下子就改变;它从来都不会这样," Altman 写道。"从短期来看,生活将基本保持不变,2025 年的人们大多会像 2024 年一样度过他们的时间。我们仍然会坠入爱河,组建家庭,在网上争吵,在大自然中徒步等。但未来将以一种无法忽视的方式向我们袭来,对我们社会和经济的长期改变将是巨大的。我们会发现新的事物去做,新的方式来互帮互助,以及新的竞争方式,但它们可能与今天的工作大不相同。"
Altman 如此赞扬晶体管这一增强大语言模型能力的先驱:
"从某些方面来说,AI 在经济上可能会像晶体管一样——一个能够良好扩展并渗透到经济几乎每个角落的重大科学发现。我们不会过多考虑晶体管或晶体管公司,收益被广泛分配。但我们确实期望我们的计算机、电视、汽车、玩具等能够创造奇迹。"
他警告说:
"未来将以一种无法忽视的方式向我们袭来。"
Whittemore 对这些观察的见解
在这个转折点上,Whittemore 分享了他自己的五个观察。
第一个与规模化有关:
"这里有一个明确的切入点,关于我们过去几个月一直在进行的规模化辩论……现在有趣的是,他现在把推理也纳入了这些扩展定律中。因此,与其将测试时间计算作为一个根本不同的东西,它只是'更多资源等于更好输出'这个相同方程的不同版本。"
Whittemore 的第二个观察呼应了 Altman 的观点:
"智能成本下降的速度确实令人难以置信,"他说。
作为第三个观察,Whittemore 指出我们可能都需要成为管理者,需要这些技能来处理可能被委派各种任务的 AI 代理。
Whittemore 概述的下一点是一个相对性论点。
"从某种意义上说,AGI 只是人类进步脚手架中的另一个工具,"Whittemore 说。"但你能感觉到这才是他真正的意思:这一次,情况确实不同。"
Whittemore 的最后一点是目前还没有实际的政策。他引用了在这个行业有着令人印象深刻资历的 MIT 教授 Ethan Mollick 的话。
"正如 (Mollick) 指出的那样,对于未来世界的样子没有清晰的愿景,"他说,"而且实验室把决定如何使用他们创造的东西的负担推给了政策制定者。"
当然,随着各方利益相关者齐聚一堂为未来铺路,我们需要解决这类问题。你可以自己看看 Altman 的文章,也许会想用 Whittemore 的笔记作为指南。
好文章,需要你的鼓励
这项来自苹果公司的研究揭示了视频大语言模型评测的两大关键问题:许多测试问题不看视频就能回答正确,且打乱视频帧顺序后模型表现几乎不变。研究提出VBenchComp框架,将视频问题分为四类:语言模型可回答型、语义型、时序型和其他类型,发现在主流评测中高达70%的问题实际上未测试真正的视频理解能力。通过重新评估现有模型,研究团队证明单一总分可能掩盖关键能力差距,并提出了更高效的评测方法,为未来视频AI评测提供了新方向。
这篇来自KAIST AI研究团队的论文提出了"差分信息分布"(DID)这一创新概念,为理解直接偏好优化(DPO)提供全新视角。研究证明,当偏好数据编码了从参考策略到目标策略所需的差分信息时,DPO中的对数比率奖励形式是唯一最优的。通过分析DID熵,研究解释了对数似然位移现象,并发现高熵DID有利于通用指令跟随,而低熵DID适合知识密集型问答。这一框架统一了对DPO目标、偏好数据结构和策略行为的理解,为语言模型对齐提供理论支持。
VidText是一个全新的视频文本理解基准,解决了现有评估体系的关键缺口。它涵盖多种现实场景和多语言内容,提出三层评估框架(视频级、片段级、实例级),并配对感知与推理任务。对18个先进多模态模型的测试显示,即使最佳表现的Gemini 1.5 Pro也仅达46.8%平均分,远低于人类水平。研究揭示输入分辨率、OCR能力等内在因素和辅助信息、思维链推理等外部因素对性能有显著影响,为未来视频文本理解研究提供了方向。
ZeroGUI是一项突破性研究,实现了零人工成本下的GUI代理自动化在线学习。由上海人工智能实验室和清华大学等机构联合开发,这一框架利用视觉-语言模型自动生成训练任务并提供奖励反馈,使AI助手能够自主学习操作各种图形界面。通过两阶段强化学习策略,ZeroGUI显著提升了代理性能,在OSWorld环境中使UI-TARS和Aguvis模型分别获得14%和63%的相对改进。该研究彻底消除了传统方法对昂贵人工标注的依赖,为GUI代理技术的大规模应用铺平了道路。