Anthropic经济指数报告深度分析了大语言模型的实际使用情况。该报告基于2025年11月Claude.ai平台上100万次消费者互动以及100万次企业API调用的真实数据,采用观察分析而非问卷调查的方式进行研究。
AI使用集中在少数核心任务
Anthropic的AI使用呈现明显的任务集中特征,前十项最频繁执行的任务占据了近四分之一的消费者互动量,以及接近三分之一的企业API流量。正如预期,Claude在代码创建和修改方面的应用尤为突出。
这种将AI作为软件开发工具的使用集中度在一段时间内保持相对稳定,表明该模型的价值主要体现在这些特定类型的任务上,而在其他领域并未出现具有经验意义的新兴应用。这说明相比于广泛的通用AI部署,专注于大语言模型已被证明有效的特定任务领域更容易获得成功。
消费者与企业使用模式差异显著
在消费者平台上,协作式使用更为常见,用户倾向于通过虚拟对话的方式对AI查询进行迭代优化,而非使用AI来生成自动化工作流程。企业API使用则呈现相反趋势,企业试图通过任务自动化来实现成本节约。
然而,虽然Claude在处理较短任务时表现出色,但随着任务复杂程度的增加以及所需"思考时间"的延长,观察到的结果质量会出现下降。这意味着自动化在处理常规、定义明确、较为简单、需要较少逻辑步骤且能快速响应查询的任务时最为有效。
对于预计需要人类数小时完成的任务,其完成率显著低于较短任务。要使长期任务成功,用户必须进行迭代和输出纠正。将大型任务分解为可管理的步骤并分别处理的用户获得了更高的成功率。
白领职业应用广泛但影响各异
公司观察显示,大多数向大语言模型提出的查询都与白领职业相关,不过较贫困国家倾向于在学术环境中使用Claude,这与美国等发达国家的使用模式有所不同。
例如,旅行代理商可以将复杂的规划任务交给大语言模型处理,而保留更多交易性质的工作;而物业管理等职业则呈现相反模式:常规行政任务可由AI处理,需要更高判断力的任务仍由人类专业人员负责。
生产力提升预期需要调整
报告指出,声称AI能在十年内将年度劳动生产力提升1.8%的说法可能需要调整至1-1.2%,因为需要考虑额外的人力和成本因素。虽然十年内1%的效率提升仍具有经济意义,但验证、错误处理和返工等活动的需求会降低成功率,因此企业决策者应相应调整预期。
组织部署AI的潜在收益还取决于分配给大语言模型的任务是补充还是替代工作。在后一种情况下,用AI替代人类通常完成的任务的成功程度取决于工作的复杂程度。
值得注意的是,报告发现用户向大语言模型提出的提示词的复杂程度与成功结果之间存在近乎完美的相关性。因此,人们如何使用AI直接影响了AI所能提供的效果。
Q&A
Q1:Anthropic经济指数报告是基于什么数据得出的?
A:该报告基于2025年11月Claude.ai平台上100万次消费者互动以及100万次企业API调用的真实数据,采用观察分析而非问卷调查的方式进行研究,为AI使用情况提供了详实的数据支撑。
Q2:为什么AI在复杂任务上表现不如简单任务?
A:Claude在处理较短任务时表现出色,但随着任务复杂程度增加以及所需"思考时间"延长,结果质量会下降。预计需要人类数小时完成的任务完成率显著低于较短任务,用户需要进行迭代和输出纠正才能成功。
Q3:AI对劳动生产力的实际提升效果如何?
A:报告认为声称AI能在十年内将年度劳动生产力提升1.8%的说法需要调整至1-1.2%,因为需要考虑验证、错误处理和返工等额外人力成本。虽然1%的效率提升仍具经济意义,但企业决策者应调整预期。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。