人们一直在谈论这个话题,但如今业界正见证一股新的热潮,开始利用这种可能改变公司格局的工具。
当然,AI 代理的崛起绝非小事。许多曾亲历云计算及其带来的巨大颠覆的人都明白,与未来即将到来的改变相比,这不过是沧海一粟。
模拟人类决策过程,并将知识工作交由大语言模型处理,这一前景意义重大。它意味着可以用一种成本更低、耐用性更强的替代方案来取代人类员工——这种员工既不需要午餐,也不需要上厕所。
没错,AI 引擎在许多方面的效率远超人类,而如今我们在企业市场中正见证这一点。
主要的企业端 AI 代理应用案例
阅读一些关于企业端 AI 代理效用的报告时,我注意到许多报告提到客户支持、市场营销以及流程支持或履约是常见的应用场景。其他一些顶级应用案例还包括知识辅助、大语言模型在现有工作流程中的生成式 AI,以及一线员工日常使用生产力工具的场景。最后这一点呼应了经常被提及的“人工在环 ( HITL )”概念,以及希望 AI 不是取代人类而是增强人类工作的理念。但实际上,其中一些 AI 代理让我们不禁疑问:究竟“人工在环 ( HITL )”到底还需扮演什么角色?
市场预测
各大咨询机构和报告公司纷纷对未来一年的市场前景给出了乐观预测。
Market.us 估计,2023 年企业端 AI 代理市场规模为 36 亿美元,2033 年将达到 1390 亿美元。Deloitte 的预测则是:预计到 2025 年将有 25% 的公司采用 AI 代理,而两年后这一比例将提升至 50%。不过,鉴于几乎所有公司都对这项功能感兴趣,这两个数字实际上可能会更高。
以下摘自 McKinsey 的一份报告:
“McKinsey 的研究认为,企业用例带来的长期 AI 机遇,其增加的生产力潜力约为 4.4 万亿美元。”
在最近一期 AI Daily Brief 播客 ( 我最喜欢的播客之一 ) 中,主持人 Nathaniel Whittemore 谈到了高管对于投资预估的转变:从上一季度的 900 万美元,到 2025 年第一季度的 1.14 亿美元。
Whittemore 补充道:“我认为,对于我们中大部分使用这些工具的人来说,它们很快就会融入你们的日常习惯中。我预计在接下来的几个季度中(实际数据)只会上升。”
他还提到了 KPMG 对那些在试验新技术后启动企业试点项目的公司的研究,数据显示,这一比例从上一季度的 37% 翻倍至第一季度的 65%,且 99% 的公司表示计划在未来某个时点部署这些代理。
他补充说:“接受调查的组织中 99% 表示计划部署代理,这令我觉得那 1% 的组织可能是误解了问题。” 无论那 1% 的组织是否刻意放弃这项技术,都无关紧要——我们必须预见到市场需求将会非常高。
现存障碍
尽管像 OpenAI 的 o3 之类的模型正在迅速进化,无代码工具也在让应用程序的开发民主化,但在职场中,AI 的应用仍存在一些明显的界限。
其中一个主要问题在于准确性挑战。对于大语言模型来说,最常用的描述词是“幻觉”。专家普遍发现,具有更多推理能力的模型往往会产生更多幻觉,而随着这些应用在早已加入这一浪潮的公司中变得日益重要,这无疑成为了一个难题。
举个例子:有一则新闻报道提到 Cursor 公司的一款名为 Sam 的客户支持引擎,因错误地创建了一项新政策而开始关闭用户对平台的访问。此次事件充分展示了此类错误为何会产生重大影响。
另一个令人担忧的问题是黑客攻击,恶意行为者可能利用这一功能来破坏系统。第三个问题则是监管——未来这些代理的监管环境将会如何?
所有这些问题都应成为高层决策者评估机遇时的重要考虑因素。
一些建议
我还看到 Gartner 提供的一个实用图表和流程描述,该公司的魔力象限报告一直在 IT 领域中大有帮助。
Gartner 的代表建议企业首先映射出自身痛点,然后利用 AI 代理来解决这些问题。具体目的是什么呢?
作者写道:“提升客户体验,精简运营流程,并挖掘新的产品、服务或收入来源。”
另一种可能应对幻觉问题的方法是集成学习。让一个模型来校验另一模型的输出,可以防止这些幻觉和错误在 AI 代理实际应用中蔓延。有些人建议,甚至可以通过接入网络搜索来缓解模型产生幻觉的问题,这也是在那期 AI Daily Brief 播客中提到的另一个观点。
准备就绪
在过去一年中,我有幸参加甚至主持了许多活动,耳闻多次相同的呼声:我们必须做好迎接 AI 代理加入的准备。
这一切都告诉我们,企业采用 AI 代理的概念绝非昙花一现。它正悄然发生在我们周围,我们理应密切关注这一趋势。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。