虽然AI的日常使用已经很普遍,但有一些可衡量的行为将AI技术的常规使用与真正复杂的人机交互区分开来。这是毕马威会计师事务所和德州大学奥斯汀分校联合研究的结论,该研究分析了来自2500名员工的140万次工作场所AI交互。
根据报告,这些行为可以转化为可教授的基准,在规模化推广时,可以通过专注于针对性培训和工作流程整合,而不仅仅是工具部署,来缩小AI影响差距。
"常规和复杂AI使用之间的差距并不隐藏在提示词本身,而是在参与模式中,"毕马威工作室负责人Anu Puvvada说。"一旦这些模式变得可见,它们就有可能被识别、讨论和规模化。"
根据报告,最复杂的AI用户不是由技术专业知识或使用频率来定义的,而是由他们如何与AI协作来定义的,这包括迭代、清晰地构建问题框架以及随时间引导输出。
这些用户不将AI视为短期生产力工具,而是长期的"思维伙伴"。
使用这些行为作为可教授指标的效果可能是变革性的,报告发现只有5%的工作者始终以能实质性改善其工作质量的方式使用AI。
研究结果还挑战了一个普遍假设,即改善AI结果主要是更好的提示词或更广泛的工具访问权限问题。相反,研究表明有效的人机协作源于员工如何将AI整合到他们的日常工作流程中。
复杂使用与四个信号密切相关:用户返回AI的频率、他们完善输出的持久性、初始请求的雄心以及选择工具或模型的意图性。
"我们在寻找那些已经弄清楚如何与模型一起思考,而不仅仅是向它提问的人,"德州大学奥斯汀分校会计学教授Jaime Schmidt说。
毕马威已经开始在内部应用这些见解,启动全公司培训计划以开始重塑行为。
该组织已将这些实践嵌入其学习生态系统中,通过基于角色的培训、操作手册和同行主导的网络,旨在强化其所谓的"AI优先"工作方式。
"我们很早就意识到,仅仅获得AI访问权限并不能带来更好的结果,"毕马威全球AI和数字创新负责人Steve Chase说。"这就是为什么我们有意设置了一套AI支持的工具、培训计划和例行程序,以使有效行为变得可见和预期,并教授更好的问题构建、更强的AI监督和有目的的迭代。"
对于首席信息官和IT领导者来说,研究结果表明AI成功更少依赖于扩大新工具规模,更多依赖于完善员工如何使用这些工具。
学习如何最好地使用这些工具包括定义什么是"良好"的AI使用,将这些行为嵌入培训和绩效期望中,并创建反馈循环,随时间推移强化更复杂的协作。
Q&A
Q1:这项研究发现了什么关键区别?
A:毕马威和德州大学奥斯汀分校的研究发现,AI使用的成功与否不在于提示词技巧,而在于用户如何与AI协作。最复杂的AI用户将AI视为长期"思维伙伴",通过迭代、清晰构建问题和引导输出来深度协作。
Q2:什么行为能体现复杂的AI使用?
A:研究发现四个关键信号:用户返回AI的频率、完善输出的持久性、初始请求的雄心程度,以及选择工具或模型的意图性。这些用户学会了与模型一起思考,而不仅仅是向它提问。
Q3:企业如何提升员工的AI使用效果?
A:企业应该专注于将有效的AI协作行为嵌入培训和工作流程中,而不仅仅是部署更多工具。包括定义"良好"的AI使用标准、基于角色的培训、创建反馈循环,以及强化AI优先的工作方式。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。