如果去年是人工智能逐渐为普通人熟知并推动像 ChatGPT 这类品牌崛起的一年,那么今年则是 AI 代理人的时代。
简单来说,这一理念认为,大语言模型引擎不仅能够预测单词或者模拟对话,还可以独立执行一些任务。
Anthropic 的 Claude 工具便是 AI 开始主动行动、自主做事的一个优秀实例。
研究代理人
在麻省理工学院,研究人员正在开发一种名为 AI 代理指数的工具,该工具维护了一个代理式 AI 系统数据库,探索 AI 代理如何在科研、软件开发等领域发挥作用。
来自 CSAIL 实验室的一份资源展示了 AI 代理所带来的主要优势,包括效率提升、专业化程度加深以及运营成本降低(稍后会详细说明)。
文章中还列出了处理与代理式 AI 相关项目的 MIT 知名学者名单,其中包括我的同事 CSAIL MIT 主管 Daniela Rus 在整合自然语言处理技术以应用于自动驾驶车辆方面的工作。文章还指出了相关挑战以及对企业的启示,提供了一个非常好的综述。
新型企业
这里提供了另一种关于代理式 AI 发展方向的有趣视角。
在最近一期的 AI Daily Brief 中, Nathaniel Whittemore 解读了一篇由 Gian Segato 撰写的文章,探讨了新型企业如何在特定方式上利用技术。
Segato 写道:“一类新兴企业正在崭露头角,它们精简、非传统且取得了惊人的成功。它们创造了数亿美元的营业额,却没有销售团队、没有市场部门、没有正规的 HR 部门,甚至没有垂直专业的工程师。它们由寥寥无几的人领导,完成着数百人的工作,通过利用机器来扩大它们的影响力。多年来,我们一直担心自动化会取代人类,但随着 AI 重塑经济,事实越来越清楚:AI 并没有取代人类的创造力,反而放大了这种能力。”
Segato 同时探讨了使 AI 具备“代理性”的一种版本,这与人类的创造力密切相关。
他写道:“真正的代理性是一种叛逆的心理特质,它是一种在没有明确验证、指导甚至许可的情况下去做事情的意愿。这就像是一种信念:你可以大胆尝试,知道自己能够激发出新的生命力。”
专业化的侵蚀
当 Whittemore 朗读 Segato 的文章,并借助 Elevenlabs 的语音合成器将这项任务外包时,听众会逐渐感受到一个论点——即 AI 正在改变对专业化劳动力的评估标准。
Segato 指出,过去“一般人并不被看好”,描述了一种转变,即专业化的人类知识也将变得不那么重要:
他写道:“我们正面临一次断裂,一次相变。AI 侵蚀了专业化的价值,因为对于许多任务来说,以前需要经过多年经验才能取得的成果,现在只需要订阅一个 20 美元的 ChatGPT……十年前,我用了九个月的时间才积累到足够经验制造出一个原型。而现在,仅用一周就能构建出一个准备发布的最先进平台,而这曾经只可能由一个完整的专业团队完成。”
他认为这将改变培训方式,可能会导致许多公司更看重资历而非实际成果。
宏观概念
在文章中,Segato 使用了“稳态平衡”这样的术语来描述一个因 AI 而被打破的环境,以及“部署的双峰分布”,他指出我们可能会趋向于需要“专业化的人类问责”来管理这些代理。
Segato 写道:“这将涵盖诸如国防、医疗保健、太空探索、生物研究以及 AI 管理等领域,在这些领域中,预测模型的误差远远超出可接受的风险阈值。凡是错误可能引发致命后果的领域,以及 AI 无法证明自己几乎无所不知的领域,我们都可以预见到监管会施加自然屏障并要求聘请专家。这与我们继续要求人类飞行员的原因相似:尽管技术上能够实现自主飞行,但有时我们仍然希望能够有人类在关键时刻做出判断。”
另一方面,他描述了一些允许通过不断试错直到成功的情况,并写道:
“在那些即使出现糟糕的 AI 生成结果也可以接受重新尝试的领域,我们将看到市场的颠覆。数据科学、市场营销、金融建模、教育、平面设计、心理咨询以及建筑设计领域,都将涌现出大量非专业但具有高度代理性的个体。当然,机器仍会不断出错,但其改进速度已经呈现出惊人的增长,并且只会继续推迟普通人急需聘请专家的时刻。”
播客主持人的反馈
在阅读完整篇文章后,Whittemore 在必要的厂商片段之后,发表了自己的看法。
他开头说道:“我认为这是一篇很棒的文章,非常发人深省,我非常兴奋 Gian 能将其分享,让我们大家一起讨论。”
Whittemore 提到了一个“Microsoft 工作趋势指数”,据此预测了一个人类负责规划而 AI 负责执行的时代。
他提到:“(该指数)基本上预测了办公室内代理的终极状态,即人类将成为协调者和代理操作员,也就是说,人类将在规划方面发挥作用,而代理将负责执行。这换一种说法就是,未来劳动力的关键技能和属性将围绕着各个领域中代理性 AI 盛行后的人类规划和协调能力。”
他还对那些对业务至关重要的应用与其他可以容忍错误的领域之间的差异进行了点评。
Whittemore 说:“我们甚至能看到,公司在实验代理时正呈现出这样一种分化:对于业务中某些部分,它们根本无法容忍目前代理存在的失败率、幻觉率或低效率,因为这些部分至关重要。反过来,在那些后果较轻的领域,公司现在就已经在使用代理,并确信其能力会不断上升。”
合作与颠覆
听完播客并审视文章各部分内容后,我意识到,许多在今年早些时候会议中听到的相同观点如今正在接近现实。
我听到很多专家在讨论:随着 AI 的迅速发展,我们将会在各个行业和垂直领域中嵌入 AI 代理,而人类不得不想办法适应并与这些工具共处。那么,这种改变会在传统商业和其权力结构的背景下产生什么影响呢?
这一切,我们拭目以待。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。