企业在开始AI评估时往往从错误的地方入手,他们会问:
有多少员工在使用ChatGPT?
写了多少个提示词?
有多少许可证在使用中?
这些数据容易统计,但对揭示真正的变化作用甚微。
更好的起始问题是:我们究竟"聘请"前沿AI技术在组织内做什么工作?
我使用"价值指标"这个表述是因为它是熟悉的语言。但我真正感兴趣的是"意义指标"——理解突破性技术所带来的影响和体验的方法。
AI不仅仅是增加了一个工具;它改变了工作的完成方式。当工作在任务层面发生变化时,价值可能在我们的仪表板无法显示的地方涌现。
任务分解的重要性
我们必须停止将职位头衔和端到端工作流程视为唯一重要的分类法。我们需要熟练掌握任务分解技能。研究表明,绝大多数工作在分解后,包含15到25个主要任务。一旦你能看到这些任务,一个根本问题就变得不可避免:每个任务在多大程度上可以负责任地、安全地、准确地实现自动化、增强或智能体辅助?
如果你正在逐个任务地重构工作的解剖结构,你就是在改变工作流程DNA中的某些东西。那么为什么我们会期望之前使用的相同传统指标和KPI仍然完全准确呢?
随着组织实施和集成AI,他们可能正在生成以前未曾认识甚至未曾命名的新意义指标。人类的感知是狭窄的。我们经常重复使用旧的测量逻辑,因为它对我们来说很熟悉。但重大技术变革可能迫使我们发明描述现实的新方法。AI也不会例外。
五个实用的AI评估指标
以下是我认为实用的五个指标,因为它们直接映射到AI如何改变决策、创造力、创新和学习。
决策速度。AI如何缩短决策周期并提高响应能力?在一些知识工作环境中——软件工程是一个常见例子——有证据表明AI在某些情况下可以将任务时间减少30%到40%。如果任务完成得更快,团队或职能部门的决策速度会发生什么变化?
决策质量提升(以及更好的问题)。如果我向机器展示我的推理过程,机器可以通过识别差距、质疑假设和建议改进来帮助我完善方法。还有另一面:你不仅改善了答案,还改善了问题。更好的问题带来更好的结果。
人类赋能指数。生成式AI可以提升人类创造力:它帮助人们生成选项、起草、迭代和探索。但如果人们外包了太多思考,它也可能在某些方面让人们变得更糟。因此,要跟踪随时间变化的赋能情况:AI是在扩展人类能力还是在约束它?
创新产出率。组织产生大量想法,但很少能成为真正的功能或改进。如果AI智能体现在是构思的一部分,那么力量倍增器是什么?想法转化为现实的百分比有何改善?在我在MIT斯隆管理学院的教学中,我一直在利用研究表明,与AI智能体一起构思的人类可以超越单独构思的人类,使用单个共享AI智能体的团队可以避免聚合多个智能体输出的开销。
学习循环效率。学习循环对员工发展至关重要。学徒制之所以有效,是因为一个人随着时间的推移帮助另一个人学习。AI引入了机器与人类之间以及在机器存在时人类之间新学习循环的可能性。那么问题就变成:AI是否提高了在职学习的速度和质量?
平衡传统指标与新兴指标
有些衡量标准将始终重要。员工和客户满意度就像测量体温。但除了这些,我们需要对新指标保持警觉。生活在一个有影响却无法测量的世界是危险的。指标塑造行为。我们为AI选择的指标将塑造领导者优化什么、团队构建什么以及企业成为什么。
因此,如果你想衡量AI转型,不要从"有多少人使用了这个工具?"开始。从工作本身开始:分解它,看看哪些任务发生了变化,然后询问正在创造什么新意义。价值通常就在那里。问题是我们是否已经建立了看到它的测量单位。
Q&A
Q1:为什么传统的AI使用量统计指标不够准确?
A:传统指标如员工使用ChatGPT数量、编写的提示词数量等虽然容易统计,但无法揭示AI对工作方式的真正改变。这些指标只是表面数据,不能反映AI如何在任务层面重构工作流程,也无法显示AI带来的真正价值和影响。
Q2:什么是任务分解,为什么它对AI评估很重要?
A:任务分解是将工作职位细分为具体任务的过程。研究显示大多数工作包含15-25个主要任务。通过任务分解,我们可以评估每个任务能否通过AI实现自动化、增强或智能体辅助,从而更准确地理解AI对工作的真实影响。
Q3:如何衡量AI对人类能力的影响?
A:可以通过人类赋能指数来跟踪,观察AI是否扩展了人类能力还是约束了它。生成式AI能提升人类创造力,帮助生成选项和探索,但如果过度依赖可能会削弱某些思考能力。关键是平衡AI辅助与人类独立思考能力的发展。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。