AI 部署中的隐性成本:为何在企业应用中 Claude 模型可能比 GPT 贵 20-30%

本文对比分析了 OpenAI 的 GPT-4o 与 Anthropic 的 Claude 3.5 Sonnet 分词方式的差异,揭示其在企业应用中隐藏的额外费用问题。

众所周知,不同的模型家族可能采用不同的 Tokenizer(分词器)。然而,目前对于这些分词器的“分词”过程本身存在何种差异的分析还相当有限。所有分词器是否都会对相同的输入文本产生相同数量的 Token?如果不会,那么生成的 Token 有多大差异?这种差异是否显著?

在本文中,我们探讨了这些问题,并考察了分词变异性带来的实际影响。我们对两大前沿模型家族进行了对比剖析:OpenAI 的 ChatGPT 与 Anthropic 的 Claude。尽管它们宣传的“每 Token 成本”都极具竞争力,但实验结果显示,在企业应用中,Anthropic 模型的总运行成本可能比 GPT 模型高出 20–30%。

API 定价 — Claude 3.5 Sonnet 与 GPT-4o

截至 2024 年 6 月,这两款先进的前沿模型在定价结构上极具竞争力。Anthropic 的 Claude 3.5 Sonnet 与 OpenAI 的 GPT-4o 在输出 Token 成本上相同,而 Claude 3.5 Sonnet 在输入 Token 成本方面则低 40%。

隐藏的 Tokenizer 低效性

尽管 Anthropic 模型在输入 Token 成本上较低,我们观察到,在对一组固定提示进行的实验中,使用 GPT-4o 的总体运行成本远低于 Claude Sonnet-3.5。为何会出现这种情况?

Anthropic 的分词器倾向于将相同的输入文本拆分成比 OpenAI 分词器更多的 Token。这意味着,对于相同的提示,Anthropic 模型产生的 Token 数量远多于 OpenAI 的对应模型。因此,尽管 Claude 3.5 Sonnet 在每个输入 Token 上标明的成本较低,但由于产生了更多 Token,这部分节省会被额外的分词成本所抵消,导致实际使用中的总体成本更高。

这种隐性成本源自 Anthropic 分词器对信息的编码方式,其往往使用更多的 Token 来表示相同内容。Token 数量的膨胀对成本以及上下文窗口的利用效率产生了显著影响。

领域相关的分词低效性

Anthropic 的分词器对不同类型的领域内容采用不同的分词策略,导致与 OpenAI 模型相比,其生成的 Token 数量增加的程度不一。AI 研究社区也注意到了类似的分词差异。我们在三个热门领域上对这一发现进行了测试,即:英文文章、代码 (Python) 和数学。

领域 模型输入 GPT Token Claude Token Token 超出比例 英文文章 77 89 ~16% 代码 (Python) 60 78 ~30% 数学 114 138 ~21%,Claude 3.5 Sonnet 分词器相对于 GPT-4o 的 Token 超出比例 。

在比较 Claude 3.5 Sonnet 与 GPT-4o 时,不同内容领域中分词低效性的程度存在显著差异。对于英文文章,Claude 的分词器生成的 Token 数量比 GPT-4o 多约 16%。而当内容更具结构性或技术性时,这一差异会急剧上升:对于数学公式,Token 超出比例为 21%,而对于 Python 代码,Claude 生成的 Token 数量则高出 30%。

这种差异的产生源于部分内容类型(如技术文档和代码)常包含特定的模式和符号,Anthropic 的分词器会将这些内容拆分成更小的部分,从而导致较高的 Token 数量。相较之下,自然语言内容的 Token 超出比例则较低。

分词低效性的其他实际影响

除了对成本的直接影响外,分词低效性还会间接影响上下文窗口的利用率。虽然 Anthropic 模型宣称拥有 200K Token 的更大上下文窗口(相比之下,OpenAI 的上下文窗口为 128K Token),但由于其冗长的特性,其实际可用的 Token 空间可能更少。因此,“宣传”的上下文窗口与实际“有效”上下文窗口之间可能存在或大或小的差异。

分词器的实现

GPT 模型采用 Byte Pair Encoding (BPE) 技术,该技术将经常一起出现的字符对合并以生成 Token。具体来说,最新的 GPT 模型使用的是开源的 o200k_base 分词器。GPT-4o 使用的实际 Token(在 tiktoken 分词器中)可以在这里查看。

JSON { #reasoning "o1-xxx": "o200k_base", "o3-xxx": "o200k_base", # chat "chatgpt-4o-": "o200k_base", "gpt-4o-xxx": "o200k_base", # e.g., gpt-4o-2024-05-13 "gpt-4-xxx": "cl100k_base", # e.g., gpt-4-0314, etc., plus gpt-4-32k "gpt-3.5-turbo-xxx": "cl100k_base", # e.g, gpt-3.5-turbo-0301, -0401, etc. }

遗憾的是,由于 Anthropic 的分词器不像 GPT 那样直接且易于获取,因此对其探讨的内容相对较少。Anthropic 曾于 2024 年 12 月发布了其 Token 计数 API,但在 2025 年后续版本中很快就被淘汰。

据 Latenode 报道,"Anthropic 使用的是一种独特的分词器,仅拥有 65,000 种 Token 变体,而 GPT-4 则拥有 100,261 种 Token 变体"。这个 Colab 笔记本包含了用于分析 GPT 与 Claude 模型之间分词差异的 Python 代码。另一个能够对接一些常见、公开分词器的工具也验证了我们的发现。无需调用实际模型 API 即可主动估算 Token 数量并预估成本,对于 AI 企业而言至关重要。

 Anthropic 具有竞争力的定价背后隐藏着成本:尽管 Anthropic 的 Claude 3.5 Sonnet 在输入 Token 成本上比 OpenAI 的 GPT-4o 低 40%,但由于输入文本分词方式的差异,这种表面上的成本优势可能存在误导性。

隐的 "分词器低效性":Anthropic 模型天生更为冗长。对于处理大量文本的企业来说,在评估模型部署的真实成本时,理解这一差异至关重要。

领域相关的分词低效性:在选择 OpenAI 与 Anthropic 模型时,应评估输入文本的性质。对于自然语言任务来说,成本差异可能微乎其微;但对于技术性或结构化内容,Anthropic 模型可能会导致明显更高的成本。

实际上下文窗口:由于 Anthropic 分词器的冗长特性,其宣传的 200K Token 上下文窗口可用空间可能比 OpenAI 的 128K Token 更少,从而在宣传与实际有效窗口之间可能存在潜在差距。

截至发稿时,Anthropic 尚未对 VentureBeat 的置评请求作出回应。

来源:VentureBeat

0赞

好文章,需要你的鼓励

2025

05/08

14:35

分享

点赞

邮件订阅