OpenAI 一直善于吸引媒体关注。他们的公告常常伴随着大胆的宣言。比如,他们宣布 GPT-2 太危险不能发布,或者他们的"圣诞 12 天"活动,每天展示一个新产品持续 12 天。
最近,Sam Altman 分享了他对去年的看法,聚焦于围绕他被解雇和复职的戏剧性董事会内幕。他还做出了一个大胆预测:
"我们现在知道如何构建通常理解的 AGI 了。我们认为到 2025 年,AI 代理将加入劳动力大军,改变公司的工作方式。"
AGI (通用人工智能) 指创造一个像人类一样聪明和通用的 AI。与为特定任务(如翻译语言、下棋或人脸识别)构建的狭义 AI 不同,AGI 可以处理任何智力任务并适应不同领域。虽然我不认为"AGI 即将到来",但我确实相信 AI 将加入劳动力大军 - 不过可能不会像 Altman 想象的那样。
AGI 近在咫尺?不,至少不是我们(或 Sam)想象的那种 AGI
2025 年 AGI 到来似乎非常不可能。今天的 AI,如 ChatGPT,通过识别模式和做出预测工作 - 而不是真正理解。例如,用"巧克力"完成短语"生活就像一盒..."依赖于概率,而不是推理。
我不相信 AGI 会在 2025 年实现,许多专家也持相同观点。我在谷歌共事过的 Demis Hassabis 预测 AGI 可能在 2035 年左右到来。Ray Kurzweil 估计是 2032 年,IDSIA 主任 Jürgen Schmidhuber 认为接近 2050 年。持怀疑态度的人很多,时间表仍不确定。
具体时间重要吗?AI 已经很强大了
也许 AGI 何时到来并不那么重要。就连 Sam Altman 最近也淡化了 AGI 中的"G",说:
"我猜我们会比大多数人想象的更早实现 AGI,但它的重要性会小得多。"
我在某种程度上同意这一点。AI 已经具备令人印象深刻的能力。例如,Netflix 的 AI 比你的伴侣更了解你的电影偏好。甚至有人开玩笑说 TikTok 的算法能在人自己意识到之前就识别出某人的性取向。AI 在模式识别方面表现出色 - 在许多情况下,它比人类做得更好。
Sam Altman 看到 AI"加入劳动力大军"
Sam 备忘录中更重要的一点是他相信 AI 将"加入劳动力大军"。我完全同意这一点将会发生。正如我在 AI 代理更新中所写,AI 要在工作场所取得成功,需要两个关键因素:(1) 获取工具的权限和 (2) 获取数据的权限。这些是让 AI 在企业环境中真正发挥作用的基础。然而,尽管 Sam 经常将这个想法与 AGI 联系在一起,但提供这些 AI 劳动力解决方案的领头羊可能不会是 OpenAI。
微软的有利地位 - 用户访问权
谁拥有劳动力工具?微软。微软。微软。他们处于有利地位。大多数人已经在使用微软产品 - 无论他们喜欢与否 - 而 AI 正深度整合到这些工具中,Copilots 无处不在。
2023 年和 2024 年,许多初创公司推出了令人印象深刻的办公 AI 服务,但很快就被微软和谷歌等巨头压制,这些巨头可以直接接触客户。以 Jasper.ai 为例 - 这曾是一个备受赞誉的 AI 文本起草工具。正如我在这篇 LinkedIn 帖子中指出的,类似功能现在直接内置于谷歌和微软产品中,使得小型参与者越来越难以竞争。
数据访问的力量
AI 需要数据才能真正发挥作用。如果你想了解公司内部流程或文档洞察,像 ChatGPT 这样的通用工具是不够的。我们需要的是能够阅读和总结公司文档的工具,专门为企业使用而定制。正如我之前所说,2025 年将是搜索之年 - 尤其是企业搜索。能够回答问题、总结内容并帮助用户浏览复杂信息的工具将成为游戏规则改变者。
谁有权访问这种数据?微软是一个大玩家,但他们并不孤单。例如,Salesforce 拥有大量宝贵数据 - 客户互动、讨论、流程文档、营销策略等。Salesforce 想要 AI 代理来帮助释放这种潜力吗?当然。
难怪 Salesforce CEO Marc Benioff 最近抨击了微软。他称他们的 AI 助手 Copilot "令人失望",说"它就是不起作用,也没有提供任何准确性。"他甚至将其称为"Clippy 2.0" - 这是我听过的最有趣的侮辱 - 然后推出了 Salesforce 自己的 AI 解决方案 Agent Forces。
OpenAI 仅仅是"最聪明的工具"?
OpenAI 没有像微软那样的数据访问权或消费者覆盖面,也没有 Salesforce 那样丰富的商业数据宝库。那么,他们的角度是什么?他们声称是最聪明的工具 - 很可能确实如此,尽管我个人认为 Anthropic 的 Claude 3.5 目前比 OpenAI 的 GPT-4 更好。
OpenAI 押注于他们能以卓越技术超越所有其他竞争对手。这就是为什么 Sam Altman 自信地声称我们会看到 AGI。这个大胆声明背后是什么?推理 - 或者按照 OpenAI 的说法,Reasoning。
OpenAI 和推理
OpenAI 最近推出了 o1,这是一个旨在通过迭代、自我调用过程展示高级推理能力的模型:
迭代和反思:模型生成输出,评估或批评它,并在新一轮推理中改进它。
反馈循环:这创造了一个反馈循环,模型重新审视其输出,批评它们,并进一步改进。
本质上,使用 o1 的 GPT 不仅仅提供答案 - 它还计划、批评计划并持续改进。
特别值得注意的是这代表的范式转变。下一代 AI 模型不是简单地发布更大的模型如 GPT-5,而是专注于在推理过程中"思考更长时间"。这种迭代处理能力可能就是 Sam Altman 所说的"我们现在知道如何构建 AGI"。
推理足以成为理由吗?
但仅凭"推理"能让 OpenAI 进入游戏吗?OpenAI 仍然需要访问数据和强大的用户群,就像 Salesforce 或微软一样。为了解决这个问题,OpenAI 推出了 macOS 版 ChatGPT 桌面应用。这个应用现在可以直接从面向开发者的工具(如 VS Code、Xcode、TextEdit、Terminal 和 iTerm2)读取代码。这意味着开发者不再需要将代码复制粘贴到 ChatGPT 中 - 这是迄今为止的常见做法。这是一个非常有用的工具,也是更深入融入开发者工作流程的明智之举。
与大语言模型对话需要成本
每次调用大语言模型 (LLM) 都需要成本。对于重度 ChatGPT 用户来说,20 美元的订阅费可能甚至无法覆盖他们的使用成本。OpenAI 最近在 E 轮融资中筹集了 66 亿美元 - 这是维持运营所需的重要资金。虽然 Agentforce 从客户那里获得了可观的收入,微软享有庞大的财务实力,但 OpenAI 仍处于让企业和用户支付足够费用以抵消开发尖端 AI 的巨额成本的早期阶段。
他们每月 200 美元的高级套餐(包括 O1 的扩展版本)就是朝这个方向迈进的一步。但这个价格值得吗?也许这就是为什么 AGI 一直是讨论的一部分 - 它有助于证明高端定位的合理性。然而,创造更优秀模型的竞赛远未结束。就连 O1 也可能很快被开源替代品超越,就像我们之前看到 Meta 的 Llama 那样。
说到 Meta,我相信我们会在 2025 年看到他们尝试将 AI 模型货币化。最终,这些参与者面临的最大挑战仍然很明确:在没有确保稳定可靠收入流的情况下,如何证明巨额成本的合理性。
Sam 说得对:AI 代理将进入劳动力市场
到 2025 年,我们将看到更多 AI 代理进入劳动力市场,通过简化、增强和自动化各行业的任务来改变工作流程。这些不会是全面的 AGI 模型,而是为专门工作流程设计的较小、专业化模型。AI 将逐步扩展和改进流程,结合传统 AI、上下文检索和强大的用户设计,以解决安全性、幻觉和用户控制等挑战。
成功将取决于通过集成良好、用户友好和符合道德设计的解决方案来提供价值,正如我在构建企业就绪 AI 工具的框架中所概述的。对 Sam Altman 来说,关键的战略问题不会是实现 AGI,而是如何为像微软或 Salesforce 这样的企业客户定价 OpenAI 的基础模型 - 特别是如果 OpenAI 最终直接与它们竞争。
但我们将如何与这些新的 AI 同事合作?
在争夺更好的模型、更好的数据和更好的集成方面,企业将成为赢家。他们的主要焦点应该是培训员工和客户如何有效地与新的 AI 同事合作。在我的 eCornell AI 解决方案证书课程中,我亲眼目睹了一旦学生学会与 AI 副驾驶沟通,生产力就会飙升。最初,许多人难以取得成果,但一步步指导如何与 AI 互动产生了显著差异。
为什么?因为即使具备推理和规划能力,AI 也还没有真正"通用",无论 Sam Altman 如何炒作。学生必须学会何时依赖 AI,何时运用人类判断。我相信 2025 年将是公司意识到这一需求并大力投资 AI 教育的一年。
好文章,需要你的鼓励
UniR(Universal Reasoner)是一种创新的推理增强方法,可为冻结的大语言模型提供即插即用的推理能力。由韩国科学技术院研究团队开发,该方法将推理能力分解为独立的轻量级模块,无需改变主模型结构。UniR的核心优势在于高效训练(仅更新小型推理模块)、出色的模型间迁移能力(小模型可指导大模型)以及模块组合能力(多个专用模块可通过logits相加组合使用)。在数学推理和翻译测试中,UniR显著超越现有微调方法,展示了轻量级模块如何有效增强大语言模型的推理能力。
Nebius团队开发了SWE-rebench,一个自动化管道用于从GitHub收集软件工程任务并进行去污染评估。该系统解决了两大挑战:高质量训练数据稀缺和评估基准容易被污染。通过四阶段处理(初步收集、自动安装配置、执行验证和质量评估),SWE-rebench构建了包含超过21,000个Python交互式任务的数据集,并提供持续更新的评估基准。研究发现部分语言模型在传统基准上的表现可能被污染效应夸大,而DeepSeek模型在开源模型中表现最为稳健。
这项研究提出了JQL(发音为"Jackal"),一种通过多语言方法提升大型语言模型预训练数据质量的创新系统。研究团队从拉马尔研究所等机构通过四阶段方法解决了多语言数据筛选的难题:先由人类评估内容教育价值创建基准数据,然后评估大型语言模型作为"评判者"的能力,接着将这些能力提炼到轻量级评估器中,最后应用于大规模数据筛选。实验表明,JQL在35种语言上显著优于现有方法,甚至能泛化到未见过的语言如阿拉伯语和中文,为多语言AI发展提供了高效可靠的数据筛选方案。
浙江大学和西湖大学研究团队开发的Styl3R实现了艺术风格化3D重建的重大突破,能在不到一秒内从少量未标定照片和任意风格图像创建具有多视角一致性的3D艺术场景。通过创新的双分支网络架构将结构建模与外观着色分离,系统不仅保持了原始场景结构,还准确捕捉了参考风格特征。与现有方法相比,Styl3R在处理速度和视觉质量上均显著领先,为创意内容制作开辟了全新可能。