OpenRouter 年度报告解读：人们用 100 万亿 Token 做什么？

序：LLM 的转折点和被忽视的真相

2024 年，对于大型语言模型（LLMs）来说，是名副其实的转折点。在这一年的 12 月 5 日，随着首个被广泛采用的推理模型 o1 的发布，AI 领域从简单的单次模式生成（single-pass pattern generation）彻底转向了多步骤深思熟虑推理（multi-step deliberation inference）的范式。

这一变革加速了大模型的部署和应用，但随之而来的问题是：在狂飙突进的技术浪潮中，我们对这些模型在现实世界中究竟是如何被使用的，缺乏足够的经验理解。

OpenRouter 平台作为一家连接了数百种 LLM 的 AI 推理服务提供商，通过对超过 100 万亿 Token 的真实世界 LLM 交互数据进行分析，不仅修正了一些普遍的错误认知，更指出了未来模型构建者、开发者和基础设施提供商需要关注的六大核心趋势。

第一重惊喜：谁是真正的“流量之王”？角色扮演力压生产力

如果让你猜用户用 AI 做得最多的事，你可能会说写代码、写邮件或者做总结。但这份 100 万亿 Token 的数据给出了一个令人大跌眼镜的答案：创造性的“角色扮演”（creative roleplay）需求，其受欢迎程度远远超过了许多人预期的“生产力任务”。

1. 意想不到的“顶流”：角色扮演的野蛮生长

在所有开源大模型的 Token 使用总量中，“角色扮演”一直占据主导地位，稳定在 50% 左右的份额。这意味着用户将开放模型主要用于创意互动对话、讲故事、角色扮演和游戏场景。

这种现象的出现，体现了开源模型的独特优势：它们可以用于创造力应用，且通常不受商业安全或内容审核层面的严格限制。用户将 LLM 视为结构化的角色扮演或“人设引擎”，而非仅仅是随意的聊天机器人。这个发现预示着 AI 在消费级应用，尤其是互动叙事、游戏和虚拟角色等领域的巨大机会。

值得注意的是，尽管角色扮演是开源模型的最大用途，但它并非开源模型独占的领域。到了 2025 年末，角色扮演的流量几乎被非中国的开源模型（43%）和闭源模型（42%）平均瓜分，这表明用户现在在创意聊天和讲故事方面，无论选择开放还是闭源模型，都有可行的方案。

2. 默默崛起的“基建狂魔”：编程工作负载的爆发

紧随角色扮演之后，“编程辅助”（programming assistance）是开源模型的第二大使用类别，约占 15% 到 20% 的份额。许多开发者利用开源模型进行代码生成和调试。

如果将视野扩大到所有 LLM（包括闭源和开源），编程已经成为增长最快、最主导的类别。编程相关的查询占总 Token 量的份额在 2025 年初约为 11%，而到了最近几周，这一比例已超过 50%。这一趋势表明 LLM 正从探索性或对话性用途转向应用型任务，如代码生成、调试和数据脚本编写。

在编程领域，Anthropic 的 Claude 系列一直占据主导地位，贡献了该类别大部分时间的 60% 以上的支出。然而，随着 LLM 嵌入开发者工作流程，编程任务也成为了驱动上下文长度激增的主要动力。涉及代码理解和调试的请求通常输入 Token 量会超过 20K。

第二重惊喜：开源与闭源的“楚河汉界”与“中型新星”

LLM 的生态系统并非一家独大，而是呈现出一种“双重结构”：开源（OSS）与闭源（Proprietary）模型并存。

1. 30% 的黄金分割线与中国力量

尽管闭源模型（特别是来自北美主要提供商的模型）仍占据 Token 使用量的大头，但开源模型的份额正在稳步增长，到 2025 年末已达到总 Token 使用量的约三分之一（30%）。

值得关注的是，中国开发的开源模型贡献了显著的增长。它们在 2024 年末的市场份额微不足道（每周仅 1.2%），但在 2025 年下半年强劲增长，在某些周内甚至达到了所有模型总使用量的近 30%。像 Qwen（通义千问）和 DeepSeek（深度求索）这样的模型通过快速迭代和密集的发布周期，实质性地重塑了开源市场格局，推动了全球竞争。

2. DeepSeek 的衰落与市场碎片化

OpenRouter 的数据显示，LLM 市场正在从整合走向多元化和竞争。在 2024 年末，DeepSeek 家族的两个模型（V3 和 R1）曾持续占据超过一半的 OSS Token 使用量，形成近似垄断的结构。

然而，在 2025 年“夏季拐点”之后，这一格局被打破。Qwen、MiniMax 的 M2、MoonshotAI（月之暗面）的 Kimi K2，以及 OpenAI 的 GPT-OSS 系列等新晋者迅速崛起，抢占了大量市场份额。到 2025 年末，没有一个单一模型能够持续占据 OSS Token 的 25% 以上。

这一变化表明用户不再默认为“最佳”选择，而是在更广泛的模型选项中寻找价值。对于模型构建者而言，这意味着发布领先的开放模型可以立即获得关注，但保持市场份额需要持续不断的开发投入。

3. 中型模型：找到“模型-市场契合度”的新宠

过去，开源市场是“小而快”和“大而强”的两极分化。然而，现在出现了一个新的、不断增长的类别：中型模型（150 亿至 700 亿参数）。

数据显示，小模型（少于 150 亿参数）的总体使用份额正在下降。而中型市场则明确展示了“市场创造”的故事。这个细分市场直到 2024 年 11 月 Qwen2.5 Coder 32B 发布后才真正建立。中型模型（如 Mistral Small 3 和 GPT-OSS 20B）的崛起，表明用户正在寻找能力与效率之间的平衡。

第三重惊喜：从“一次回答”到“主动行动”——Agentic Inference 的崛起

LLM 的使用方式正在发生根本性转变：从单次文本生成转向多步骤、集成工具和推理密集型的工作流程。这种转变被称为“代理式推理”（Agentic Inference）的兴起。

1. 推理模型成为新的默认路径

到 2025 年，流经推理优化模型的 Token 量占比急剧上升，目前已超过总使用量的一半。这不仅反映了 GPT-5、Claude 4.5、Gemini 3 等更高能力系统的发布，也反映出用户对能够管理任务状态、遵循多步逻辑和支持代理式工作流的模型的需求增加。

xAI 的 Grok Code Fast 1 目前在推理流量中占据最大份额，领先于 Google 的 Gemini 2.5 Pro 和 Flash。这一趋势表明，面向推理的模型正在成为实际工作负载的默认选择。

2. 提示词暴涨 4 倍，编程是幕后推手

过去一年，模型的输入（prompt）和输出（completion）Token 量都大幅增加。平均每次请求的输入提示词 Token 量增加了约四倍，从约 1.5K 增长到超过 6K。输出 Token 量也增加了近两倍。

这种增长表明用户正在从开放式生成转向更复杂、上下文更丰富的工作负载。模型正日益充当分析引擎，而不是简单的创意生成器。而这一趋势的主要驱动力正是编程工作负载。编程相关的提示词平均比通用提示词的 Token 长度长 3-4 倍。更长的序列不仅仅是用户的冗长，更是嵌入式、更复杂的代理工作流的标志。

3. 工具调用：大模型学会了“打电话”

用户正在越来越多地采用工具调用功能。虽然实际成功调用工具的 Token 量占比稳定在 15% 左右，但 Anthropic 的 Claude 系列和 OpenAI 的 gpt-4o-mini 等明确为代理推理优化的模型，在早期主导了工具调用市场。

工具调用的上升趋势，使得模型提供商必须提高工具处理能力、上下文支持和对非标准工具链的鲁棒性。

第四重惊喜：地缘政治与 AI 的全球化

LLM 的使用并非集中于北美，而是日益全球化和去中心化。

北美的支出份额在大多数观察期内已降至不到总支出的一半。亚洲不仅作为前沿模型的产出者，也作为消费者的身份迅速扩张。亚洲在全球支出中的份额增加了一倍多，在最近时期达到了约 31%。中国的 LLM 公司（如 DeepSeek、Qwen、月之暗面）的崛起，证实了 LLM 已成为真正的全球计算资源。

在语言分布方面，英语依然占据主导地位（超过 80% 的 Token 份额）。但简体中文也占到了近 5% 的全球 Token 量，这体现了在双语或中文优先环境中的持续参与，尤其是在中国开源模型增长的背景下。

第五重惊喜：留住用户的“辛德瑞拉效应”

在大模型快速发展的生态系统中，衡量模型护城河的真正标准，不是短期增长，而是用户留存。

研究引入了**“辛德瑞拉玻璃鞋效应”**（Cinderella “Glass Slipper” effect）来描述一种持久的留存现象。该假说认为，在快速迭代的 AI 市场中，存在一批尚未被解决的高价值工作负载。当一个新的前沿模型发布时，它相当于被“试穿”到这些悬而未决的问题上。一旦某个新模型恰好匹配了以前无法满足的技术和经济约束，它就找到了精确的契合——这双“玻璃鞋”。

对于工作负载恰好“合脚”的开发者或组织来说，这种契合会产生强大的锁定效应。他们的系统、数据管道和用户体验都会锚定在这个模型上。即使后续有更新的模型出现，重新更换平台的动力也会急剧减弱。

留存率揭示能力拐点：例如，Claude 4 Sonnet 的 2025 年 5 月队列和 Gemini 2.5 Pro 的 2025 年 6 月队列在第 5 个月仍保留了约 40% 的用户，远高于后来的队列。这表明这些早期队列恰好对应了模型在“推理保真度”或“工具使用稳定性”上的技术突破，从而解决了以前不可能完成的工作负载。
“回力镖效应”（Boomerang Effect）：此外，DeepSeek 的模型图表显示了一种罕见的“复活”跳跃现象。一些 DeepSeek 的队列在经历最初的流失后，留存率反而上升了。这表明一些流失的用户在尝试了其他替代方案后，又回到了 DeepSeek，确认 DeepSeek 由于其独特的专业性能或成本效率，为他们的特定工作负载提供了最佳契合。

因此，留存率不再仅仅是结果，它成为了理解模型能力突破的“指纹”。

第六重惊喜：高价不愁卖，但便宜带来规模

LLM 的市场表现尚未完全商品化：价格与使用量之间只有微弱的相关性。需求是相对价格非弹性的，即价格降低 10%，使用量仅增加约 0.5% 至 0.7%。

通过将使用案例按单位成本和总量绘制在对数图上，市场被分为四个象限：

象限名称	特点	主要类别	洞察与启示
大规模量驱动 (Mass-Market Volume Drivers)	低成本，高用量	角色扮演、编程	专业生产力（编程）和对话娱乐（角色扮演）是 AI 体量的两大核心驱动力。开源模型在这个象限找到了显著优势。
专业专家 (Specialized Experts)	高成本，低用量	金融、学术、健康、营销	用户愿意为这些高风险、利基领域的高准确性支付溢价。
利基工具 (Niche Utilities)	低成本，低用量	翻译、法律、琐事问答	这些功能高度优化或商品化，”够用就好”的替代品价格低廉。
高端工作负载 (Premium Workloads)	高成本，高用量	技术、科学	用户愿意为高性能和专业能力付费。“技术”作为使用案例，其成本比其他类别高得多，但仍保持高使用量。

闭源模型（如 Anthropic 的 Claude 3.7 Sonnet）占据了高成本、高使用量的**“高端领导者”区域，而开源模型（如 DeepSeek V3）则主导了低成本、高用量的“高效巨头”**区域。

这表明，质量和能力往往超越成本。如果一个模型显著更优或拥有信任优势（如 Claude Sonnet 系列），用户将承受更高的成本，因为在他们的工作流程中，API 调用的成本相对于节省的开发者时间等价值来说微不足道。但同时，成本的下降会带来“杰文斯悖论”式的效果：极度便宜的模型（如高效巨头组）被集成到更多地方，最终消耗了更多的总 Token 量。

结语：从“直觉”到“数据”的 AI 新时代

这份基于 OpenRouter 的实证研究，纠正了许多关于 LLM 使用方式的“传统智慧”。我们看到，LLM 正在成为一个结构性多元的生态系统，未来的竞争将是模型无关和异构的。

o1-class 模型的出现，将评估从单次基准测试转向了过程指标和任务成功率。LLM 的重心已转向“系统思维”而非“单一押注”，转向“数据分析”而非“直觉判断”。我们不再只关注模型能生成什么，而更关注它如何通过持续推理、调用工具、迭代细化来完成复杂的任务。

AI 的下一阶段竞争，将不再仅仅是模型的规模之争，而是运营卓越、文化适应性和多语言能力的全面较量。对于所有参与者来说，尽早找到并“穿上”那双能解决高价值工作负载的“玻璃鞋”，才是决定长期成功的关键。

OpenRouter 年度报告解读：人们用 100 万亿 Token 做什么？

目录