模型正以快速且猛烈的速度不断涌现 - 似乎每次回头,我们都会看到新形式的大语言模型操作和 AI 引擎需要理解。
但这些变化实际上在行业中产生了什么影响?
我看到了一篇来自 Machine Learning Street Talk 的 Tim Scarfe 博士在 X (原 Twitter) 上的帖子,这位显然具有相关技术经验的专家讨论了 o1-pro 模型的突破性及其原因。
本质上,Scarfe 表示,新模型改变了工程师提示大语言模型执行复杂任务的迭代过程。
"o1-pro 最显著的变化是它在'单次处理'中能够处理的复杂性," 他写道。"此前,大语言模型在单次前向传递中只能做'有限的工作',由于自注意力线性化技巧的限制,我们不得不下意识地接受一些奇怪的限制,即你只能要求大语言模型在上下文中处理和完成一个模糊有限的子空间内的工作。"
他还指出,传统过程实际上并非"单次处理",而是一个并行化的搜索树过程在运行。
注意力的邮票比喻
此外,Scarfe 使用邮票的比喻来讲述上一代注意力机制的受限能力。
"想象你有一张世界地图," 他写道,"在大语言模型的每次前向传递中,你只能执行'一枚邮票大小'的计算,而作为提示者,你需要决定将这枚邮票放在地图的什么位置。这基本上就是 o 系列之前大语言模型的工作方式。因此,我们工程师设计了放置更多邮票的方法,或者将地图细分并将结果汇总成连贯的内容。"
他解释了工程团队如何试图通过多智能体协作等技术来克服这些限制。
"o1-pro 现在为我们自动化了这个过程,减少了我们对提示技巧和工程的需求," 他补充道。
他还将 Transformer 称为"有限状态自动机",再次说明它们在单次前向传递中能够执行的计算类型极其有限。
撇开自动机的语义不谈,这是有道理的。(严格来说,ChatGPT 是这样说的:"(Transformer) 是一个连续的参数化计算框架,因此超出了经典的离散自动机模型。")
这里有一定的主观性;我只是觉得这很有趣。总之,那些发现这些模型能力(并使用它们)的人正在帮助 AI 系统以不同方式组织资源,使其变得更强大、更灵活。
有什么不同?
Scarfe 还这样描述新模型给用户带来的变化:- "更多的细节表述、更多的多样性和更少的平庸"。
而且,最终带来更高的准确性。
让我们更详细地看看这些标准。
细节表述与模型如何与我们对话和回答问题有关。你可以这样理解:这个大语言模型是莎士比亚还是幼儿园学生?至于多样性,当模型能够在推理时进行更好的搜索,它就能提供更广泛的结果。而平庸 - 这与恐怖谷效应有些关联。我曾写过早期大语言模型结果如何"简单"、"泛泛而谈",用一个词来说,就是"平庸"。换句话说,结果的细微差别和复杂性能否通过更深层次的图灵测试。
关于准确性:
"(新模型) 现在能在地图上分布 1000 个邮票,准确捕捉与我的提示相匹配的信息," Scarfe 写道。"这种差异就像黑夜和白天一样明显。"
Francois Chollet 的深度思考
在帖子最后,Scarfe 提到了 Francois Chollet,这位从 Google 离职去研究 Arc 奖项的 AI 研究领域知名人士。我在之前的文章中曾介绍过他的工作,其中 AI 引擎试图解决人类能够轻松完成的模式识别问题。
查看 Chollet 自己的 X 主页,你可以看到他对最近模型在解决 Arc 问题上的进展持乐观态度。
"今天 OpenAI 发布了其下一代推理模型 o3," Chollet 在 12 月 20 日写道。"我们与 OpenAI 合作测试了它在 ARC-AGI 上的表现,我们认为这代表着 AI 适应新任务能力的重大突破。在低计算模式下(每个任务计算成本 20 美元)它在半私有评估中得分 75.7%,在高计算模式下(每个任务数千美元)得分 87.5%。虽然成本很高,但这不仅仅是蛮力计算 - 这些能力开创了新领域,值得认真的科学关注。"
以下是 Chollet 最近对 AI 行业现状的一些其他有趣观点。
"计算曾经感觉很快 - 所有东西都在本地运行,软件主要用 C/C++ 编写,并受制于需要在各种旧硬件上运行的限制。现在我的任何一个 Chrome 标签页使用的内存都是 NeXT 工作站总内存的 100 倍。" - 2024 年 9 月 3 日
"AI 的当前气氛与 2021 年的 web3 有太多相似之处,让我感到不安。基于零数据的叙事被认为是不言而喻的。每个人都确信'改变文明'的影响...将在未来 2-3 年内到来。" - 2023 年 1 月 8 日
这句话与市场特别相关:
"软件是一个奇怪的领域,你可以几乎不花钱创造十亿美元的价值,也可以花十亿美元却几乎创造不出任何价值," 2022 年 2 月 1 日
结论
以上是我认为与当今工程界相关的一些内容,因为我们正在发现新的模型能力。我说发现而不是构建,是因为这些系统本身就具有让人类惊叹的能力。请继续关注未来新模型将带来的更多可能。
好文章,需要你的鼓励
Docker公司通过增强的compose框架和新基础设施工具,将自己定位为AI智能体开发的核心编排平台。该平台在compose规范中新增"models"元素,允许开发者在同一YAML文件中定义AI智能体、大语言模型和工具。支持LangGraph、CrewAI等多个AI框架,提供Docker Offload服务访问NVIDIA L4 GPU,并与谷歌云、微软Azure建立合作。通过MCP网关提供企业级安全隔离,解决了企业AI项目从概念验证到生产部署的断层问题。
中科院联合字节跳动开发全新AI评测基准TreeBench,揭示当前最先进模型在复杂视觉推理上的重大缺陷。即使OpenAI o3也仅获得54.87%分数。研究团队同时提出TreeVGR训练方法,通过要求AI同时给出答案和精确定位,实现真正可追溯的视觉推理,为构建更透明可信的AI系统开辟新路径。
马斯克的AI女友"Ani"引爆全球,腾讯RLVER框架突破情感理解边界:AI下半场竞争核心已转向对人性的精准把握。当技术学会共情,虚拟陪伴不再停留于脚本应答,而是通过"心与心的循环"真正理解人类孤独——这背后是强化学习算法与思考模式的化学反应,让AI从解决问题转向拥抱情感。
PyVision是上海AI实验室开发的革命性视觉推理框架,让AI系统能够根据具体问题动态创造Python工具,而非依赖预设工具集。通过多轮交互机制,PyVision在多项基准测试中实现显著性能提升,其中在符号视觉任务上提升达31.1%。该框架展现了从"工具使用者"到"工具创造者"的AI能力跃迁,为通用人工智能的发展开辟了新路径。