新模型推理：工程师的视角

本文探讨了人工智能领域的最新模型进展，特别是o1-pro模型带来的突破。文章解释了新模型如何改变工程师与大语言模型交互的方式，提高了模型处理复杂任务的能力。同时介绍了业内专家对这些进展的看法，以及这些变化对AI技术发展的潜在影响。

模型正以快速且猛烈的速度不断涌现 - 似乎每次回头，我们都会看到新形式的大语言模型操作和 AI 引擎需要理解。

但这些变化实际上在行业中产生了什么影响？

我看到了一篇来自 Machine Learning Street Talk 的 Tim Scarfe 博士在 X (原 Twitter) 上的帖子，这位显然具有相关技术经验的专家讨论了 o1-pro 模型的突破性及其原因。

本质上，Scarfe 表示，新模型改变了工程师提示大语言模型执行复杂任务的迭代过程。

"o1-pro 最显著的变化是它在'单次处理'中能够处理的复杂性，" 他写道。"此前，大语言模型在单次前向传递中只能做'有限的工作'，由于自注意力线性化技巧的限制，我们不得不下意识地接受一些奇怪的限制，即你只能要求大语言模型在上下文中处理和完成一个模糊有限的子空间内的工作。"

他还指出，传统过程实际上并非"单次处理"，而是一个并行化的搜索树过程在运行。

注意力的邮票比喻

此外，Scarfe 使用邮票的比喻来讲述上一代注意力机制的受限能力。

"想象你有一张世界地图，" 他写道，"在大语言模型的每次前向传递中，你只能执行'一枚邮票大小'的计算，而作为提示者，你需要决定将这枚邮票放在地图的什么位置。这基本上就是 o 系列之前大语言模型的工作方式。因此，我们工程师设计了放置更多邮票的方法，或者将地图细分并将结果汇总成连贯的内容。"

他解释了工程团队如何试图通过多智能体协作等技术来克服这些限制。

"o1-pro 现在为我们自动化了这个过程，减少了我们对提示技巧和工程的需求，" 他补充道。

他还将 Transformer 称为"有限状态自动机"，再次说明它们在单次前向传递中能够执行的计算类型极其有限。

撇开自动机的语义不谈，这是有道理的。(严格来说，ChatGPT 是这样说的："(Transformer) 是一个连续的参数化计算框架，因此超出了经典的离散自动机模型。")

这里有一定的主观性；我只是觉得这很有趣。总之，那些发现这些模型能力（并使用它们）的人正在帮助 AI 系统以不同方式组织资源，使其变得更强大、更灵活。

有什么不同？

Scarfe 还这样描述新模型给用户带来的变化：- "更多的细节表述、更多的多样性和更少的平庸"。

而且，最终带来更高的准确性。

让我们更详细地看看这些标准。

细节表述与模型如何与我们对话和回答问题有关。你可以这样理解：这个大语言模型是莎士比亚还是幼儿园学生？至于多样性，当模型能够在推理时进行更好的搜索，它就能提供更广泛的结果。而平庸 - 这与恐怖谷效应有些关联。我曾写过早期大语言模型结果如何"简单"、"泛泛而谈"，用一个词来说，就是"平庸"。换句话说，结果的细微差别和复杂性能否通过更深层次的图灵测试。

关于准确性：

"(新模型) 现在能在地图上分布 1000 个邮票，准确捕捉与我的提示相匹配的信息，" Scarfe 写道。"这种差异就像黑夜和白天一样明显。"

Francois Chollet 的深度思考

在帖子最后，Scarfe 提到了 Francois Chollet，这位从 Google 离职去研究 Arc 奖项的 AI 研究领域知名人士。我在之前的文章中曾介绍过他的工作，其中 AI 引擎试图解决人类能够轻松完成的模式识别问题。

查看 Chollet 自己的 X 主页，你可以看到他对最近模型在解决 Arc 问题上的进展持乐观态度。

"今天 OpenAI 发布了其下一代推理模型 o3，" Chollet 在 12 月 20 日写道。"我们与 OpenAI 合作测试了它在 ARC-AGI 上的表现，我们认为这代表着 AI 适应新任务能力的重大突破。在低计算模式下（每个任务计算成本 20 美元）它在半私有评估中得分 75.7%，在高计算模式下（每个任务数千美元）得分 87.5%。虽然成本很高，但这不仅仅是蛮力计算 - 这些能力开创了新领域，值得认真的科学关注。"

以下是 Chollet 最近对 AI 行业现状的一些其他有趣观点。

"计算曾经感觉很快 - 所有东西都在本地运行，软件主要用 C/C++ 编写，并受制于需要在各种旧硬件上运行的限制。现在我的任何一个 Chrome 标签页使用的内存都是 NeXT 工作站总内存的 100 倍。" - 2024 年 9 月 3 日

"AI 的当前气氛与 2021 年的 web3 有太多相似之处，让我感到不安。基于零数据的叙事被认为是不言而喻的。每个人都确信'改变文明'的影响...将在未来 2-3 年内到来。" - 2023 年 1 月 8 日

这句话与市场特别相关：

"软件是一个奇怪的领域，你可以几乎不花钱创造十亿美元的价值，也可以花十亿美元却几乎创造不出任何价值，" 2022 年 2 月 1 日

结论

以上是我认为与当今工程界相关的一些内容，因为我们正在发现新的模型能力。我说发现而不是构建，是因为这些系统本身就具有让人类惊叹的能力。请继续关注未来新模型将带来的更多可能。

来源：Forbes

0赞

好文章，需要你的鼓励

新模型推理：工程师的视角

来源：Forbes

2025

01/27

11:12

分享

点赞

英伟达发布全新小型开源模型Nemotron-Nano-9B-v2，支持推理开关控制

谷歌翻译将集成AI功能并增加游戏化学习模式

边缘AI基础设施的现实挑战与解决方案

Hugging Face：企业在不牺牲性能下降低AI成本的5种方法

阿里推出Ovis2.5：多模态大语言模型的又一重要突破

对话谷歌副总裁Karen Teo：“短剧”“AI应用”现象级出海，我们看到中国开发者的三种内核

谷歌Gemini大模型登陆甲骨文云平台

Linux的微内核替代方案？Debian/Hurd证明微内核Unix梦想仍在继续

你的每一个问题、每一条评论，我都在记录

2035年最热门的十大颠覆性产业

AI"教父"提出让AI具备母性本能引发争议

生成式AI助力MIT科学家对抗超级细菌

最热门的 AI 模型：它们的功能和使用方法

这款古怪的 AI 智能手机可以创建你的数字分身

Faireez 获 750 万美元融资，为租赁市场提供 AI 驱动的酒店式管家服务

Broadcom 大获全胜：70% 大型 VMware 客户购买其最全面解决方案

Peer 获得1050万美元元宇宙引擎投资，推出3D个人星球功能

获 3000 万美元融资，Crogl 发布面向安全分析师的全新 AI "钢铁侠战衣"

Turing 获得 1.11 亿美元融资，估值达到 22 亿美元，为 OpenAI 等大语言模型公司提供关键代码支持

Tavus 推出系列 AI 模型，实现实时人脸交互技术突破

Welevel 获得 570 万美元融资，革新程序化游戏开发

AI 驱动的卓越运营：企业如何通过人人可及的流程智能提升成功

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: