微软在其Viva Insights企业监控工具中加入Copilot使用情况监测作为生产力指标,这一举措揭示了其对该产品推广的迫切需求。
根据管理量子理论中的观察者效应类比,当将某个指标作为目标时,它就不再是有效的衡量标准。与其反映最初要测量的潜在行为,该指标反而成为衡量基准被操控程度的标准。
微软的做法在多个层面都令人瞩目。该公司根据地区、工作职能和管理类型创建员工群组,以"确定角色预期值"。这些数据经过标准化处理后,不仅在公司内部进行比较,还与其他公司的同等职位进行对比。是的,微软正在收集你的内部公司绩效数据并发送给竞争对手,但据称这些数据受到"随机化数学模型"的保护。
微软发布这一功能的博客文章措辞模糊,使用了未定义的术语,缺乏任何可验证的细节、理论基础、研究数据或细致入微的分析。一个未定义的术语暴露了其真实意图:微软称"群组结果查看所选组的角色构成,并基于租户间匹配角色构建加权平均预期结果"。"租户"的确切含义并未解释,但可能显示了微软将Viva Insights视为多租户平台的思路。
这也揭示了微软违反了多租户软件的一个基本规则:每个租户应该对其他租户不可见且安全隔离。但微软声称有"随机化数学模型"保护。
这种未经审计的私人数据公开使用,正是生成式AI实验性核反应堆赖以为生的不受监管的原料,至少需要获得被收集者的明确同意。公告中没有提及这一点,因此可以认为这里没有任何选择权。当然,如果组织可以豁免自己不参与该系统,跨公司比较就完全无法反映"前25%的公司",因为很可能真正的顶级公司都没有参与。这将致命地毒害潜在的统计模型。
Viva Insights中存在Copilot采用指标本身就很奇特。自桌面计算开始以来,企业对生产力软件的采用一直既是营销工具又是真正的指导。软件供应商喜欢宣传其产品的受欢迎程度,而现实的怀疑者则依赖第三方分析来了解市场的真实发展。Windows版本采用的十年传奇就是一个很好的例子。监控实际使用情况并将其集成到实时管理洞察仪表板中是一个全新的层次,高度揭示了微软对Copilot成功潜力的内部认知。
软件供应商收集实际使用数据是久经考验的良好做法。来自已部署应用程序的遥测数据显示什么在使用、什么没在使用、使用频率和成功程度,这是生命周期管理的重要组成部分。考虑到许多企业软件的混乱状态,这一做法使用得还远远不够。
然而,只有当收集的数据严格内部化时,这才能给供应商带来竞争优势。微软从未公开过Excel、Visual Studio或Teams的实时跨企业使用数据,更别说以游戏化排行榜格式呈现。它需要为Copilot这样做,因为Copilot的实际生产力收益无法量化,甚至不可见,也没有变得可见的趋势。
微软被迫通过未定义流程为未定义目的呈现综合群组的Copilot使用情况,是因为它迫切需要找到让人们使用该产品的方法。一般来说,人们使用生产力工具的程度取决于它能在多大程度上提高他们的生产力。除非销售后的使用出现危机,否则你不需要在销售后推动实际使用。
生成式AI行业对采用率的普遍绝望感浓厚得几乎可以闻到,每当弹窗乞求你尝试本周已经忽略30次的功能时就能感受到。微软希望管理主义的神奇思维——所有行为都可以根据规则进行量化和优化——适用于它呈现为可量化和优化的任何事物。
管理主义出了名地不受独立验证或严格推导的影响,这使它成为当今事实叠加文化的理想法宝:如果你实际上无法观察到某些东西,它就免受可能揭示危险事物的分析。提供这种观察的代理,你就可以合成行为指标,管理机制会像处理其他任何指标一样处理它们。
为此,微软违反了多租户平台管理规则、企业数据所有权规则和同意规则。这样做是为了服务生成式AI,而生成式AI也从同一口井中汲取养分,这是合适的。这也是对AI采用及其未来路径的真正洞察,只是不是微软希望你拥有的洞察。
Q&A
Q1:微软为什么要在Viva Insights中监测Copilot使用情况?
A:微软此举反映了其对Copilot产品推广的迫切需求。由于Copilot的实际生产力收益无法量化或可见,微软被迫通过监测使用数据来寻找让人们使用该产品的方法。这种做法违反了多租户平台管理、企业数据所有权和用户同意等规则。
Q2:微软如何处理收集到的企业数据?
A:微软根据地区、工作职能和管理类型创建员工群组,将数据标准化后不仅在公司内部比较,还与其他公司同等职位进行对比。这意味着微软在收集内部公司绩效数据并分享给竞争对手,虽然声称有"随机化数学模型"保护,但这违反了多租户软件的基本安全规则。
Q3:这种监测方式对企业有什么风险?
A:这种做法存在多重风险:首先是数据隐私问题,企业内部绩效数据被分享给竞争对手;其次是缺乏用户同意,没有提供选择退出的权利;最后是统计模型可能不准确,因为真正的顶级公司可能不参与该系统,导致比较基准失效。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。