当我们回顾过去几年 AI 突飞猛进的发展速度时,我们可以提出两个问题(或两个都问):1. 这是如何发生的?2. 它将带来什么影响?
最近,我通过 James Pethokoukis 在 Substack 上发表的文章("Faster, Please!")了解到 Leopold Aschenbrenner 关于 AI 和"情境感知"的重要论述。通过阅读 Aschenbrenner 这篇详尽的文章,我们可以找到上述两个问题的答案,同时他还对为什么我们在不久的将来会遇到奇点事件做出了一些很有趣的解释。
能力的巨大跃升
首先,Aschenbrenner 建议我们简单计算"OOMs"(数量级)。他将一个数量级定义为 10 倍的现象。我最初接触"10X"是通过"10X 程序员"的概念 —— 指那些生产力是同事 10 倍的人。
现在 AI 已经可以编写代码,这个概念可能已经过时了,因为 Aschenbrenner 讨论的是在通向人工通用智能或超级智能的过程中出现的大量数量级增长。
像人类一样成长
Aschenbrenner 反复强调的一点是将 AI 与人类成长阶段进行类比 —— 学龄前儿童、幼儿园学生、高中生和成年人。
他谈到从学龄前到高中生的跨越,表示这种跨越将会经常发生。
他写道:"到 2027 年,AI 模型能够胜任 AI 研究人员/工程师的工作,这是非常令人信服的。这并不需要相信科幻小说,只需要相信图表上的直线。"
他再次强调,只要数一数这些数量级的增长,就能看到我们的发展方向...
衡量成功
Aschenbrenner 文章中另一个重要观点是我们正在用尽基准测试。这让我深有共鸣,因为几周前我写过关于基础数据集的文章,各种模型的得分都高于大多数人。
Aschenbrenner 也持相似观点,他谈到了常用于识别智能水平的 MATH 数据集。值得注意的是,他没有提到 ARC,直到最近模型在模式识别问题上表现都不太好。但它们现在也在突破这一领域,可以问问 Francois Chollet。
在更广泛的资源识别方面,Aschenbrenner 列举了三个主要进步要素 —— 计算能力、算法效率和他称之为"解除进一步发展限制"的因素。
他声称,我们预期的进步速度会让摩尔定律显得"缓慢",他再次敦促我们只需计算数量级的增长。
解除限制的过程
在文章后面,Aschenbrenner 讨论了思维链和脚手架等技术如何使 AI 代理能够更智能地思考,从而释放其真正潜力。我发现他的这段话非常重要:
"想象一下,当被要求解决一个困难的数学问题时,你必须立即说出脑海中的第一个想法,"他写道。"显然,除了最简单的问题外,你会觉得很困难。但直到最近,这就是我们让大语言模型解决数学问题的方式。相反,我们大多数人会在草稿纸上一步步解决问题,这样就能解决更困难的问题。'思维链'提示为大语言模型解锁了这种能力。尽管它们具有出色的原始能力,但由于明显的限制,它们在数学方面的表现远不如可能达到的水平,只需要一个小的算法调整就能释放出更强大的能力。"
专家们将其称为"推理过程中的测试时计算"。这意味着 AI 可以在实时回答问题之前先进行推理。正如许多人指出的那样,这是一个真正的游戏规则改变者!
入职问题
我认为我们应该关注文章的这一部分:
"GPT-4 具备完成许多人工作相当一部分的原始智能,"Aschenbrenner 写道,"但这就像一个聪明的新员工刚到公司 5 分钟:它没有任何相关背景,没有阅读过公司文档或 Slack 历史记录,没有与团队成员交谈过,也没有花时间理解公司内部的代码库。一个聪明的新员工在到达 5 分钟后并不那么有用 —— 但一个月后就很有用了!比如通过很长的上下文,似乎应该可以像培训新人类同事一样'培训'模型。仅这一点就将是一个巨大的突破。"
他认为,AI 代理需要持久记忆,需要完整的上下文来思考,需要细节。
结论似乎是这样的 —— 随着系统被赋予记忆和更广泛的上下文,变得更"人性化",以更人性化的方式进行认知,它们将继续让我们惊叹不已。
作者反复提到的一个最有说服力的论点是,就在几年前,这些模型还难以识别狗和猫的基本图像。它们在本质上是非常原始的,而现在则发生了翻天覆地的变化。如果这种情况持续发生,我们可以期待 Aschenbrenner 的其他许多预测成为现实。
最后,我引用他在文章开头引用的 Ilya Sutskever 的话,他在 OpenAI 的争议之前曾与 Sam Altman 一起在那里工作:
"看,这些模型,它们只是想要学习。你必须理解这一点。这些模型,它们只是想要学习..."
我想解释所有这些的一种方式是,像 Aschenbrenner 这样的人做出的预测并不仅仅是疯狂的恐吓或悲观论调,也不是夸大其词的宣传 —— 考虑到这些模型在进化过程中能做什么,这些都是合理的预期。Aschenbrenner 谈到一群接近这个行业的卡桑德拉们,他们必须向其他人解释,大语言模型不仅仅是在"预测下一个 token",而是在做那些我们自己很快就无法完成的心智工作,不管我们如何努力。所以用两个词来说:做好准备。
当我展望 2025 年我们将要面对的情况时,我可能会重新回顾这篇文章,因为它似乎与我们的时代息息相关。
好文章,需要你的鼓励
大众汽车旗下ID. Polo与Cupra Raval已在西班牙马托雷尔工厂正式下线投产。两款车型起售价分别为24,995欧元和26,000欧元,均基于MEB+平台打造,搭载37kWh或52kWh电池组,续航里程最高可达454公里。这是大众"电动城市车家族"系列的首批产品,预计今年夏末秋初开始交付。大众集团通过跨品牌资源整合,实现约6亿欧元的成本节约,后续还将推出ID. Cross等新成员。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
三星宣布将于6月8日起为Samsung Health应用推出重磅功能更新,赶在Galaxy Watch 9传闻发布之前落地。新版本将引入多项AI驱动的生物特征分析功能,包括:综合心率、血氧、皮肤温度等数据的每日活力评分(Vitals)、结合体成分数据评估长期心脏健康的心脏健康评分、优化训练强度的每日有氧负荷追踪,以及横向对比用户群体的健身指数。此外,应用界面将重新划分为睡眠、营养、活动、正念和体征五大板块,并新增抗氧化指数、年龄指数和听力保护等个性化功能。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。