当我们回顾过去几年 AI 突飞猛进的发展速度时,我们可以提出两个问题(或两个都问):1. 这是如何发生的?2. 它将带来什么影响?
最近,我通过 James Pethokoukis 在 Substack 上发表的文章("Faster, Please!")了解到 Leopold Aschenbrenner 关于 AI 和"情境感知"的重要论述。通过阅读 Aschenbrenner 这篇详尽的文章,我们可以找到上述两个问题的答案,同时他还对为什么我们在不久的将来会遇到奇点事件做出了一些很有趣的解释。
能力的巨大跃升
首先,Aschenbrenner 建议我们简单计算"OOMs"(数量级)。他将一个数量级定义为 10 倍的现象。我最初接触"10X"是通过"10X 程序员"的概念 —— 指那些生产力是同事 10 倍的人。
现在 AI 已经可以编写代码,这个概念可能已经过时了,因为 Aschenbrenner 讨论的是在通向人工通用智能或超级智能的过程中出现的大量数量级增长。
像人类一样成长
Aschenbrenner 反复强调的一点是将 AI 与人类成长阶段进行类比 —— 学龄前儿童、幼儿园学生、高中生和成年人。
他谈到从学龄前到高中生的跨越,表示这种跨越将会经常发生。
他写道:"到 2027 年,AI 模型能够胜任 AI 研究人员/工程师的工作,这是非常令人信服的。这并不需要相信科幻小说,只需要相信图表上的直线。"
他再次强调,只要数一数这些数量级的增长,就能看到我们的发展方向...
衡量成功
Aschenbrenner 文章中另一个重要观点是我们正在用尽基准测试。这让我深有共鸣,因为几周前我写过关于基础数据集的文章,各种模型的得分都高于大多数人。
Aschenbrenner 也持相似观点,他谈到了常用于识别智能水平的 MATH 数据集。值得注意的是,他没有提到 ARC,直到最近模型在模式识别问题上表现都不太好。但它们现在也在突破这一领域,可以问问 Francois Chollet。
在更广泛的资源识别方面,Aschenbrenner 列举了三个主要进步要素 —— 计算能力、算法效率和他称之为"解除进一步发展限制"的因素。
他声称,我们预期的进步速度会让摩尔定律显得"缓慢",他再次敦促我们只需计算数量级的增长。
解除限制的过程
在文章后面,Aschenbrenner 讨论了思维链和脚手架等技术如何使 AI 代理能够更智能地思考,从而释放其真正潜力。我发现他的这段话非常重要:
"想象一下,当被要求解决一个困难的数学问题时,你必须立即说出脑海中的第一个想法,"他写道。"显然,除了最简单的问题外,你会觉得很困难。但直到最近,这就是我们让大语言模型解决数学问题的方式。相反,我们大多数人会在草稿纸上一步步解决问题,这样就能解决更困难的问题。'思维链'提示为大语言模型解锁了这种能力。尽管它们具有出色的原始能力,但由于明显的限制,它们在数学方面的表现远不如可能达到的水平,只需要一个小的算法调整就能释放出更强大的能力。"
专家们将其称为"推理过程中的测试时计算"。这意味着 AI 可以在实时回答问题之前先进行推理。正如许多人指出的那样,这是一个真正的游戏规则改变者!
入职问题
我认为我们应该关注文章的这一部分:
"GPT-4 具备完成许多人工作相当一部分的原始智能,"Aschenbrenner 写道,"但这就像一个聪明的新员工刚到公司 5 分钟:它没有任何相关背景,没有阅读过公司文档或 Slack 历史记录,没有与团队成员交谈过,也没有花时间理解公司内部的代码库。一个聪明的新员工在到达 5 分钟后并不那么有用 —— 但一个月后就很有用了!比如通过很长的上下文,似乎应该可以像培训新人类同事一样'培训'模型。仅这一点就将是一个巨大的突破。"
他认为,AI 代理需要持久记忆,需要完整的上下文来思考,需要细节。
结论似乎是这样的 —— 随着系统被赋予记忆和更广泛的上下文,变得更"人性化",以更人性化的方式进行认知,它们将继续让我们惊叹不已。
作者反复提到的一个最有说服力的论点是,就在几年前,这些模型还难以识别狗和猫的基本图像。它们在本质上是非常原始的,而现在则发生了翻天覆地的变化。如果这种情况持续发生,我们可以期待 Aschenbrenner 的其他许多预测成为现实。
最后,我引用他在文章开头引用的 Ilya Sutskever 的话,他在 OpenAI 的争议之前曾与 Sam Altman 一起在那里工作:
"看,这些模型,它们只是想要学习。你必须理解这一点。这些模型,它们只是想要学习..."
我想解释所有这些的一种方式是,像 Aschenbrenner 这样的人做出的预测并不仅仅是疯狂的恐吓或悲观论调,也不是夸大其词的宣传 —— 考虑到这些模型在进化过程中能做什么,这些都是合理的预期。Aschenbrenner 谈到一群接近这个行业的卡桑德拉们,他们必须向其他人解释,大语言模型不仅仅是在"预测下一个 token",而是在做那些我们自己很快就无法完成的心智工作,不管我们如何努力。所以用两个词来说:做好准备。
当我展望 2025 年我们将要面对的情况时,我可能会重新回顾这篇文章,因为它似乎与我们的时代息息相关。
好文章,需要你的鼓励
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。
数据分析平台公司Databricks完成10亿美元K轮融资,公司估值超过1000亿美元,累计融资总额超过200亿美元。公司第二季度收入运营率达到40亿美元,同比增长50%,AI产品收入运营率超过10亿美元。超过650家客户年消费超过100万美元,净收入留存率超过140%。资金将用于扩展Agent Bricks和Lakebase业务及全球扩张。
上海AI实验室发布OmniAlign-V研究,首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准,通过创新的数据生成和质量管控方法,让AI在保持技术能力的同时显著提升人性化交互水平,为AI价值观对齐提供了可行技术路径。