忽视智能体AI的潜力,特别是其对现代化数据基础设施的需求,承担着与当年零售商忽视互联网同样的生存风险。问题不在于是否投资,而在于如何确保这些投资转化为可衡量的、真实世界的回报。但是衡量智能体AI投资的实际回报率可能令人困惑。那么,在确保可衡量成功的同时,你应该如何为智能体AI的未来做好定位呢?
明确你的目标
对于企业来说,这是一个超越AI试验阶段的关键时刻。为了实验而实验的时代已经结束。今天的模型功能强大,但它们的价值取决于所要实现结果的明确性。如果对业务目标缺乏清晰理解,即使是最先进的AI能力也可能成为昂贵的科学项目。现在是时候明确成功的定义,并有意识地朝着这个目标构建了。
例如,智能体现在可以管理治理、编排流水线、加速入职流程并增强客户参与度。一些好处很容易量化,比如营销转化率提升15%或入职时间缩短40%。其他好处更具结构性,如优化资源利用和消除冗余工具。在开始时,确定哪些用例能在最短时间内产生最大影响,并以此为基础构建。
治理:投资回报率的根基
那么,如何在AI策略中建立更具体的投资回报率目标呢?
这始于治理。治理不仅仅关乎合规性;治理智能体主动执行政策,动态检测架构漂移,并实时精确定位血缘关系缺口。这为开发人员和评估结果的高管创建了可信的反馈循环。
成功的组织不会固守单一的大型AI用例。他们在整个技术栈中嵌入智能体,从面向客户的应用程序到用于治理、数据质量监控和工作负载优化的内部系统。然而,没有对数据的强有力掌控,理解这些智能体的成就,更重要的是衡量其投资回报率,就变得不可能。
正如投资者兼作家罗伯特·清崎所说:"富人不为金钱工作;他们让金钱为他们工作。"类似的原则适用于你的数据。当你的数据具有敏捷性、清洁度并主动为你工作——改善决策、训练复杂系统并驱动自主智能体时——AI的投资回报率就不仅仅是理论上的,而是真实的。
最成功的早期采用者是有意识地构建治理的。他们投资于元数据系统、自动化和基于领域的组织。这创造了效率,从消除冗余数据管道到加速交付。回报并不总是立即显现,但它是基础性的。强健的治理将原始数据转化为可靠、可用的产品,使智能体能够提供一致、可重复的价值。
跨技术栈衡量投资回报率
投资回报率可以在许多地方出现,而且并非所有地方都相同。
在业务方面,智能体AI已经在产生影响。营销团队使用生成式智能体进行超个性化营销活动,而销售和支持团队部署的副驾驶显著改善了响应时间和客户满意度。这些直接加速了收入和关键绩效指标。例如,我最近与一家金融服务公司交谈,他们使用生成式智能体个性化入职流程,将客户设置时间从两周缩短到三天,同时将转化率提高了20%。
在供应端,AI智能体正在优化基础设施,显著减少手工工作,并降低风险。这包括自动化复杂治理、改善可观测性,以及智能调优工作负载以减少支出。这些效率提升通常比面向客户的改进更快显现。
一个常见的反模式是平台碎片化。当团队采用重叠工具时,隐性成本会积累。无论你运行统一平台还是混合环境,通过减少重复和整合工作负载都能获得显著的投资回报率。互操作性很重要。当智能体跨系统运行且治理保持一致时,计算和运营成本都会下降。最敏捷和最成功的企业会不断精简其核心平台。
将AI投资回报率视为一个连续体。一些投资产生即时回报,另一些建立长期价值。关键是了解你所处的位置以及要衡量什么。
从猜测到指导
不要将AI仅仅视为削减成本的工具。它更深层的机会是横向的:帮助团队移动更快、创新更多,并专注于更高价值的工作。然而,这种好处只有在你的数据准备就绪时才会显现,而这种就绪性始于治理。
通过使投资回报率可见和可追踪,治理本质上打破了分散努力和稀释结果的组织孤岛。它建立了一个共享框架,直接将数据投资与公司范围的OKR对齐。在这个智能体AI时代,投资回报率不是仪表板上的静态数字;它是等待在你的企业中被捕获的分布式力量。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。