在软件发展历程中,快捷方式随处可见。长期以来,我们一直致力于提供智能助手、宏指令、快捷方式和自动化解决方案。抛开令人诟病的 Clippy 助手不谈,科技行业在这一领域的最新发展自然聚焦于生成式 AI 智能的研发。众所周知,这项工作现在与代理型 AI 功能的"就业"紧密相连,旨在提供类人的复杂问题解决方案,几乎无需用户干预。
"就业"这个词可能比我们想象的更为重要。我们何时开始讨论软件副驾驶真正接管工作岗位 (可能是部分或全部),并真正开始为企业效益做出贡献?
今年将会有大量关于自主工作者的讨论。要触及问题核心,我们需要开始分析哪些人类工作流程最适合数字化自动化,同时 (还需要注意这些新元素的安全性和合规性),我们如何将这些新型机器人工作者引入团队,使其执行超越简单聊天机器人功能的任务。
Integrail 公司 CEO Peter Guagenti 在经历了这一领域最热烈的炒作周期后,对此话题提出了自己的观点。他表示,在过去一年中,特定的专业 AI 代理已经开始接管常见的业务职能,从销售和营销活动到软件工程任务,实现了全方位的自动化。
月度最佳 AI 员工
"新一代代理型 AI 平台正在扩展这些能力,为企业提供'AI 员工起点模板',同时增加了根据其独特工作方式进行定制的能力,为任何指定任务创造'月度最佳员工',"Guagenti 本月在伦敦对媒体表示。"这些平台还引入了与大量业务系统和数据源的连接,使 AI 能够跨系统运作并了解业务背景,确保 AI 工作者从第一天起就能像经过充分培训的员工一样工作。"
简而言之,通过这些新的代理型 AI 平台,我们看到 AI 工作者能够通过简单的语言指令和几次点击就能投入使用。只要能描述工作流程、定义需求并分配任务,现在就能创建能够完成最复杂任务的 AI 代理。
将外包转为内部作业
"通过代理型 AI,企业可以受益于针对特定功能和任务定制的 AI 代理,这些代理可以简化工作,消除耗时或低价值的任务,并将目前由咨询或离岸 [外包] 团队处理的工作转为内部处理,"Guagenti 说。"在未来三到五年内,AI 工作者将成为我们世界和劳动力的一部分。管理者将同时管理人类和数字工作者团队,我们会像分配任务给普通员工一样分配任务给 AI。"
这一变革将以多快的速度展开?让我们记住,云计算软件即服务 (SaaS) 平台的兴起为企业带来了渐进式的生产力提升和业务能力扩展,这种变化在近二十年间缓慢累积。Guagenti 认为,代理型 AI 将带来比 SaaS 高出一个量级的影响,而且这种变化将在不到一半的时间内出现。
这些观点在某种程度上得到了分析机构 McKinsey 最近一份报告的支持,报告指出"代理型 AI 正在自主行动。"McKinsey 指出,"2023 年,AI 机器人可以通过综合和总结大量数据 (包括语音消息、文本和技术规范) 来支持呼叫中心代表,为客户查询提供建议回复。到 2025 年,AI 代理可以与客户对话并规划后续行动。例如,处理支付、检查欺诈和完成配送等操作。"
从更广泛的经济角度来看,持续提高企业生产力和降低运营成本的努力已经产生了影响。自后疫情时代紧缩开始以来,企业一直在努力以更少的资源做更多的事情,而几乎每个领域的竞争压力都在继续上升,导致许多组织人手不足。同时,企业领导者期望 AI 能够降低运营成本,并使其产品和服务明显优于竞争对手。
然而,目前只有少数大型科技品牌或 AI 初创公司拥有足够数量的数据科学家和 AI 工程师来实现这一目标。企业看到了明确的前进道路,但绝大多数公司都在努力应对这项新技术的复杂性。此外,他们并不完全理解代理型 AI 的可能性以及在哪里或如何能找到即时价值。更重要的是,他们缺乏独立部署和管理 AI 基础设施的专业知识。
为什么 AI 令人难以招架
"对许多企业来说,建立大语言模型、通过检索增强生成来策划提供模型背景所需的数据,以及构建与日常使用的业务系统的集成,这些都是令人难以招架的任务,"Guagenti 详细解释了引入新智能的困难所在。
答案可能在于企业正在寻找平台级解决方案,帮助他们识别 AI 机会并快速将想法转化为现实。这正是 Integrail 设定的使命,即提供无代码和无集成的工具集,为创建代理型 AI 功能提供指导和打包服务。
这一领域将会有更多发展,而围绕代理型 AI 本身产生的噪音已经达到震耳欲聋的程度。
通过无代码和无集成方式将这些功能构建到劳动力中是值得称赞的,但这些变化的长期 (几乎是人文文化层面的) 影响尚未可知。在一个我们仍在讨论重返办公室计划、数字游民兴起,以及由边缘计算驱动的智慧城市连接大规模扩展以进一步自动化我们生活的时代,新的 AI 合规状态究竟如何在商业格局中稳定下来还有待观察。
AI 确实已经在工作中与我们同在,但它是否已经在员工聚会上出丑,学会为所有人点咖啡?我们可能需要一些现实主义的观点。
好文章,需要你的鼓励
香港中文大学与华为诺亚方舟实验室合作开发了PreMoe框架,解决了大型混合专家模型(MoE)在内存受限设备上的部署难题。研究团队发现MoE模型中的专家表现出明显的任务专业化特征,据此提出了概率专家精简(PEP)和任务自适应专家检索(TAER)两大核心技术。实验证明,DeepSeek-R1 671B模型在精简50%专家后仍保持97.2%的MATH500准确率,内存需求降至688GB;而更激进的精简方案(减少87.5%专家)也能保持72.0%的准确率。该方法适用于多种MoE架构,为强大AI系统的广泛部署铺平了道路。
SCIENCEBOARD是一项开创性研究,旨在评估多模态自主智能体在真实科学工作流中的表现。研究团队构建了一个包含169个高质量任务的基准测试,涵盖生物化学、天文学等六个科学领域,并开发了一个真实环境让智能体通过CLI或GUI接口与科学软件交互。实验评估表明,即使是最先进的模型在这些复杂科学任务上的成功率也仅为15%,远低于人类表现,揭示了当前技术的局限性并为未来科学智能体的发展提供了宝贵见解。
帝国理工学院的研究团队开发了AlphaMed,这是首个仅通过极简规则强化学习就能培养医疗推理能力的AI模型,无需依赖传统的思维链示范数据。通过分析数据信息丰富度和难度分布的影响,研究发现高信息量的医疗问答数据是推理能力的关键驱动因素。AlphaMed在六个医疗问答基准上取得了领先成绩,甚至超越了更大的封闭源模型,同时展现出自发的步骤推理能力,为医疗AI发展提供了更加开放、高效的新路径。
Alita是一种新型通用AI代理系统,采用极简设计理念,以"最小预定义,最大自我进化"为原则构建。由普林斯顿大学等多家机构研究团队开发的Alita,只配备一个核心能力和少量通用模块,能自主创建所需工具并重用为模型上下文协议(MCPs)。实验显示,Alita在GAIA基准测试上达到87.27%的通过率,超越包括OpenAI Deep Research在内的复杂系统,证明简约设计可带来卓越性能。