如果你关注AI对经济影响的持续讨论,你可能见过本月流传的一张图表。这张图来自Anthropic关于AI劳动力市场影响的报告,用于比较当前大语言模型对各职业的"观察暴露度"(红色)和相同大语言模型的"理论能力"(蓝色)在22个职业类别中的表现。
虽然当前的"观察暴露度"区域本身就很有趣,但真正引人注目的是蓝色的"理论能力"部分。乍看之下,这张图表暗示基于大语言模型的系统至少在理论上能够完成各种人类职业中80%的个人"工作任务",涵盖范围令人震惊。看起来Anthropic预测大语言模型最终将能够完成从"艺术与媒体"、"办公与行政"到"法律、商业与金融",甚至"管理"等广泛类别中的绝大多数工作。
这个"理论AI覆盖"区域似乎注定要吞噬美国就业市场的大片领域!
然而,深入了解这些"理论能力"数字的基础,会呈现出AI未来职业影响的一个远没那么可怕的图景。当你深入具体细节时,那片蓝色区域代表的是一些过时且高度投机的有根据猜测,关于AI可能在哪些方面提高人类生产力,而不一定是它将在哪些方面完全取代人类。
2023年能买到的最佳AI
Anthropic在此引用的大语言模型"理论能力"基准并非基于该公司对其当前模型的实证测试,也不是基于性能提升的量化预测。相反,Anthropic引用了2023年8月的一份报告,题为《GPT就是GPT:大语言模型劳动力市场影响潜力的早期观察》,由OpenAI、OpenResearch和宾夕法尼亚大学的研究人员共同撰写。
研究人员从O*NET的详细工作活动报告开始,这些报告以极其细致的层面分解了许多工作涉及的个人任务。然后他们使用人工标注和GPT-4辅助标记的混合方式,判断当时"最强大的OpenAI大语言模型"是否能够在"同等质量"下将完成该个人任务所需的时间减少至少50%。如果不能,他们还会判断获得"预期的大语言模型驱动软件"是否可能在未来实现类似的时间节省。
关键的是,为这项标记工作咨询的人类并不是实际从事这些工作的人,甚至不是熟悉这些工作的人。相反,他们是熟悉2023年AI技术发展现状的人,被要求对大语言模型和未来大语言模型驱动软件最有用的领域做出广泛猜测。
研究人员承认,由于人类标注者"大多不了解被评估的具体职业","标记的主观性"构成了"我们方法的根本局限性"。标记结果显示研究人员所说的"任务和职业聚合的逻辑不清晰,以及标签中一些明显的差异"。对于创建客观看起来的AI职业影响测量来说,这些都是相当大的警告。
深入研究人员使用的详细评估准则,我们还可以看到他们对当时可能受大语言模型"直接影响"最大的职业所做的假设类型。该准则提供了大语言模型可以执行的任务类型的许多有用示例,包括:
根据复杂指令编写和转换文本和代码
按照规范对现有文本或代码进行编辑
编写代码来帮助执行过去手工完成的任务
在语言之间翻译文本
总结中等长度的文档
对文档提供反馈
回答关于文档的问题
生成用户可能想要询问文档的问题
总的来说,这是2023年大语言模型最擅长任务类型的不错清单。但仅仅因为大语言模型能够在某种程度上执行这些任务,并不一定意味着它能够以"在同等质量下将完成任务的时间减少至少一半"的方式来执行。
例如,请记住2025年的一项研究发现,使用AI的开源程序员一旦考虑到编写提示词和审查生成代码所花费的时间,比不使用AI的程序员慢19%。另外,在假设大语言模型的输出质量与人类"同等"之前,请记住大语言模型众所周知的幻觉和迎合倾向。
"预期大语言模型驱动软件"的承诺
即使对2023年时代大语言模型的工作相关能力进行如此宽泛的解读,研究人员估计当时只有约15%的所有工作相关任务能够通过大语言模型实现至少50%的效率提升。总的来说,只有约2.3%的职业看到其至少50%的O*NET任务以这种方式"暴露"给当时的大语言模型。
要达到本文开头图表中显示的更可怕数字,研究人员必须开始预测"预期大语言模型驱动软件"对各种工作的影响。
回想一下2023年8月AI行业的状况,正值OpenAI的GPT-4模型发布后不久。那个时刻可能标志着AI炒作的某种高峰。大约在这个时候,埃隆·马斯克等人因担心"失去对我们文明控制的风险"而呼吁暂停AI开发六个月,Eliezer Yudkowsky警告说,如果超人AI实体威胁地球上所有生命,我们应该愿意"通过空袭摧毁恶意数据中心"。杰弗里·辛顿离开Google,这样他就可以公开表达对AI"实际上可能比人类更聪明"并"变得无法控制"的担忧。AI幻觉对工作的高调影响刚开始获得广泛关注。
正是在这种环境下,AI专家被要求预测大语言模型驱动软件未来改变工作的能力。
Q&A
Q1:Anthropic的AI理论能力报告是基于什么数据?
A:Anthropic引用的不是自己的实证测试,而是2023年8月OpenAI、OpenResearch和宾夕法尼亚大学研究人员共同撰写的报告。该报告使用O*NET详细工作活动数据,通过人工标注和GPT-4辅助标记来判断大语言模型能否将任务完成时间减少50%。
Q2:这项研究的标注人员是谁?准确性如何?
A:标注人员并非实际从事被评估工作的人,而是熟悉2023年AI技术现状的专家。研究人员承认,由于标注者"大多不了解被评估的具体职业",标记的主观性构成了方法的根本局限性,结果显示逻辑不清晰和标签差异。
Q3:为什么研究结果显示AI能影响80%的工作任务?
A:这个高比例来自对"预期大语言模型驱动软件"未来能力的投机性预测。仅基于2023年实际大语言模型能力,研究估计只有15%的工作任务能提升50%效率,只有2.3%的职业有50%以上任务受到影响。高比例数字依赖于对未来AI软件的猜测。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。