序:LLM 的转折点和被忽视的真相
2024 年,对于大型语言模型(LLMs)来说,是名副其实的转折点。在这一年的 12 月 5 日,随着首个被广泛采用的推理模型 o1 的发布,AI 领域从简单的单次模式生成(single-pass pattern generation)彻底转向了多步骤深思熟虑推理(multi-step deliberation inference)的范式。
这一变革加速了大模型的部署和应用,但随之而来的问题是:在狂飙突进的技术浪潮中,我们对这些模型在现实世界中究竟是如何被使用的,缺乏足够的经验理解。
OpenRouter 平台作为一家连接了数百种 LLM 的 AI 推理服务提供商,通过对超过 100 万亿 Token 的真实世界 LLM 交互数据进行分析,不仅修正了一些普遍的错误认知,更指出了未来模型构建者、开发者和基础设施提供商需要关注的六大核心趋势。
第一重惊喜:谁是真正的“流量之王”?角色扮演力压生产力
如果让你猜用户用 AI 做得最多的事,你可能会说写代码、写邮件或者做总结。但这份 100 万亿 Token 的数据给出了一个令人大跌眼镜的答案:创造性的“角色扮演”(creative roleplay)需求,其受欢迎程度远远超过了许多人预期的“生产力任务”。
1. 意想不到的“顶流”:角色扮演的野蛮生长
在所有开源大模型的 Token 使用总量中,“角色扮演”一直占据主导地位,稳定在 50% 左右的份额。这意味着用户将开放模型主要用于创意互动对话、讲故事、角色扮演和游戏场景。
这种现象的出现,体现了开源模型的独特优势:它们可以用于创造力应用,且通常不受商业安全或内容审核层面的严格限制。用户将 LLM 视为结构化的角色扮演或“人设引擎”,而非仅仅是随意的聊天机器人。这个发现预示着 AI 在消费级应用,尤其是互动叙事、游戏和虚拟角色等领域的巨大机会。
值得注意的是,尽管角色扮演是开源模型的最大用途,但它并非开源模型独占的领域。到了 2025 年末,角色扮演的流量几乎被非中国的开源模型(43%)和闭源模型(42%)平均瓜分,这表明用户现在在创意聊天和讲故事方面,无论选择开放还是闭源模型,都有可行的方案。
2. 默默崛起的“基建狂魔”:编程工作负载的爆发
紧随角色扮演之后,“编程辅助”(programming assistance)是开源模型的第二大使用类别,约占 15% 到 20% 的份额。许多开发者利用开源模型进行代码生成和调试。
如果将视野扩大到所有 LLM(包括闭源和开源),编程已经成为增长最快、最主导的类别。编程相关的查询占总 Token 量的份额在 2025 年初约为 11%,而到了最近几周,这一比例已超过 50%。这一趋势表明 LLM 正从探索性或对话性用途转向应用型任务,如代码生成、调试和数据脚本编写。
在编程领域,Anthropic 的 Claude 系列一直占据主导地位,贡献了该类别大部分时间的 60% 以上的支出。然而,随着 LLM 嵌入开发者工作流程,编程任务也成为了驱动上下文长度激增的主要动力。涉及代码理解和调试的请求通常输入 Token 量会超过 20K。
第二重惊喜:开源与闭源的“楚河汉界”与“中型新星”
LLM 的生态系统并非一家独大,而是呈现出一种“双重结构”:开源(OSS)与闭源(Proprietary)模型并存。
1. 30% 的黄金分割线与中国力量
尽管闭源模型(特别是来自北美主要提供商的模型)仍占据 Token 使用量的大头,但开源模型的份额正在稳步增长,到 2025 年末已达到总 Token 使用量的约三分之一(30%)。
值得关注的是,中国开发的开源模型贡献了显著的增长。它们在 2024 年末的市场份额微不足道(每周仅 1.2%),但在 2025 年下半年强劲增长,在某些周内甚至达到了所有模型总使用量的近 30%。像 Qwen(通义千问)和 DeepSeek(深度求索)这样的模型通过快速迭代和密集的发布周期,实质性地重塑了开源市场格局,推动了全球竞争。
2. DeepSeek 的衰落与市场碎片化
OpenRouter 的数据显示,LLM 市场正在从整合走向多元化和竞争。在 2024 年末,DeepSeek 家族的两个模型(V3 和 R1)曾持续占据超过一半的 OSS Token 使用量,形成近似垄断的结构。
然而,在 2025 年“夏季拐点”之后,这一格局被打破。Qwen、MiniMax 的 M2、MoonshotAI(月之暗面)的 Kimi K2,以及 OpenAI 的 GPT-OSS 系列等新晋者迅速崛起,抢占了大量市场份额。到 2025 年末,没有一个单一模型能够持续占据 OSS Token 的 25% 以上。
这一变化表明用户不再默认为“最佳”选择,而是在更广泛的模型选项中寻找价值。对于模型构建者而言,这意味着发布领先的开放模型可以立即获得关注,但保持市场份额需要持续不断的开发投入。
3. 中型模型:找到“模型-市场契合度”的新宠
过去,开源市场是“小而快”和“大而强”的两极分化。然而,现在出现了一个新的、不断增长的类别:中型模型(150 亿至 700 亿参数)。
数据显示,小模型(少于 150 亿参数)的总体使用份额正在下降。而中型市场则明确展示了“市场创造”的故事。这个细分市场直到 2024 年 11 月 Qwen2.5 Coder 32B 发布后才真正建立。中型模型(如 Mistral Small 3 和 GPT-OSS 20B)的崛起,表明用户正在寻找能力与效率之间的平衡。
第三重惊喜:从“一次回答”到“主动行动”——Agentic Inference 的崛起
LLM 的使用方式正在发生根本性转变:从单次文本生成转向多步骤、集成工具和推理密集型的工作流程。这种转变被称为“代理式推理”(Agentic Inference)的兴起。
1. 推理模型成为新的默认路径
到 2025 年,流经推理优化模型的 Token 量占比急剧上升,目前已超过总使用量的一半。这不仅反映了 GPT-5、Claude 4.5、Gemini 3 等更高能力系统的发布,也反映出用户对能够管理任务状态、遵循多步逻辑和支持代理式工作流的模型的需求增加。
xAI 的 Grok Code Fast 1 目前在推理流量中占据最大份额,领先于 Google 的 Gemini 2.5 Pro 和 Flash。这一趋势表明,面向推理的模型正在成为实际工作负载的默认选择。
2. 提示词暴涨 4 倍,编程是幕后推手
过去一年,模型的输入(prompt)和输出(completion)Token 量都大幅增加。平均每次请求的输入提示词 Token 量增加了约四倍,从约 1.5K 增长到超过 6K。输出 Token 量也增加了近两倍。
这种增长表明用户正在从开放式生成转向更复杂、上下文更丰富的工作负载。模型正日益充当分析引擎,而不是简单的创意生成器。而这一趋势的主要驱动力正是编程工作负载。编程相关的提示词平均比通用提示词的 Token 长度长 3-4 倍。更长的序列不仅仅是用户的冗长,更是嵌入式、更复杂的代理工作流的标志。
3. 工具调用:大模型学会了“打电话”
用户正在越来越多地采用工具调用功能。虽然实际成功调用工具的 Token 量占比稳定在 15% 左右,但 Anthropic 的 Claude 系列和 OpenAI 的 gpt-4o-mini 等明确为代理推理优化的模型,在早期主导了工具调用市场。
工具调用的上升趋势,使得模型提供商必须提高工具处理能力、上下文支持和对非标准工具链的鲁棒性。
第四重惊喜:地缘政治与 AI 的全球化
LLM 的使用并非集中于北美,而是日益全球化和去中心化。
北美的支出份额在大多数观察期内已降至不到总支出的一半。亚洲不仅作为前沿模型的产出者,也作为消费者的身份迅速扩张。亚洲在全球支出中的份额增加了一倍多,在最近时期达到了约 31%。中国的 LLM 公司(如 DeepSeek、Qwen、月之暗面)的崛起,证实了 LLM 已成为真正的全球计算资源。
在语言分布方面,英语依然占据主导地位(超过 80% 的 Token 份额)。但简体中文也占到了近 5% 的全球 Token 量,这体现了在双语或中文优先环境中的持续参与,尤其是在中国开源模型增长的背景下。
第五重惊喜:留住用户的“辛德瑞拉效应”
在大模型快速发展的生态系统中,衡量模型护城河的真正标准,不是短期增长,而是用户留存。
研究引入了**“辛德瑞拉玻璃鞋效应”**(Cinderella “Glass Slipper” effect)来描述一种持久的留存现象。该假说认为,在快速迭代的 AI 市场中,存在一批尚未被解决的高价值工作负载。当一个新的前沿模型发布时,它相当于被“试穿”到这些悬而未决的问题上。一旦某个新模型恰好匹配了以前无法满足的技术和经济约束,它就找到了精确的契合——这双“玻璃鞋”。
对于工作负载恰好“合脚”的开发者或组织来说,这种契合会产生强大的锁定效应。他们的系统、数据管道和用户体验都会锚定在这个模型上。即使后续有更新的模型出现,重新更换平台的动力也会急剧减弱。
- 留存率揭示能力拐点: 例如,Claude 4 Sonnet 的 2025 年 5 月队列和 Gemini 2.5 Pro 的 2025 年 6 月队列在第 5 个月仍保留了约 40% 的用户,远高于后来的队列。这表明这些早期队列恰好对应了模型在“推理保真度”或“工具使用稳定性”上的技术突破,从而解决了以前不可能完成的工作负载。
- “回力镖效应”(Boomerang Effect): 此外,DeepSeek 的模型图表显示了一种罕见的“复活”跳跃现象。一些 DeepSeek 的队列在经历最初的流失后,留存率反而上升了。这表明一些流失的用户在尝试了其他替代方案后,又回到了 DeepSeek,确认 DeepSeek 由于其独特的专业性能或成本效率,为他们的特定工作负载提供了最佳契合。
因此,留存率不再仅仅是结果,它成为了理解模型能力突破的“指纹”。
第六重惊喜:高价不愁卖,但便宜带来规模
LLM 的市场表现尚未完全商品化:价格与使用量之间只有微弱的相关性。需求是相对价格非弹性的,即价格降低 10%,使用量仅增加约 0.5% 至 0.7%。
通过将使用案例按单位成本和总量绘制在对数图上,市场被分为四个象限:
| 象限名称 | 特点 | 主要类别 | 洞察与启示 |
|---|---|---|---|
| 大规模量驱动 (Mass-Market Volume Drivers) | 低成本,高用量 | 角色扮演、编程 | 专业生产力(编程)和对话娱乐(角色扮演)是 AI 体量的两大核心驱动力。开源模型在这个象限找到了显著优势。 |
| 专业专家 (Specialized Experts) | 高成本,低用量 | 金融、学术、健康、营销 | 用户愿意为这些高风险、利基领域的高准确性支付溢价。 |
| 利基工具 (Niche Utilities) | 低成本,低用量 | 翻译、法律、琐事问答 | 这些功能高度优化或商品化,”够用就好”的替代品价格低廉。 |
| 高端工作负载 (Premium Workloads) | 高成本,高用量 | 技术、科学 | 用户愿意为高性能和专业能力付费。“技术”作为使用案例,其成本比其他类别高得多,但仍保持高使用量。 |
闭源模型(如 Anthropic 的 Claude 3.7 Sonnet)占据了高成本、高使用量的**“高端领导者”区域,而开源模型(如 DeepSeek V3)则主导了低成本、高用量的“高效巨头”**区域。
这表明,质量和能力往往超越成本。如果一个模型显著更优或拥有信任优势(如 Claude Sonnet 系列),用户将承受更高的成本,因为在他们的工作流程中,API 调用的成本相对于节省的开发者时间等价值来说微不足道。但同时,成本的下降会带来“杰文斯悖论”式的效果:极度便宜的模型(如高效巨头组)被集成到更多地方,最终消耗了更多的总 Token 量。
结语:从“直觉”到“数据”的 AI 新时代
这份基于 OpenRouter 的实证研究,纠正了许多关于 LLM 使用方式的“传统智慧”。我们看到,LLM 正在成为一个结构性多元的生态系统,未来的竞争将是模型无关和异构的。
o1-class 模型的出现,将评估从单次基准测试转向了过程指标和任务成功率。LLM 的重心已转向“系统思维”而非“单一押注”,转向“数据分析”而非“直觉判断”。我们不再只关注模型能生成什么,而更关注它如何通过持续推理、调用工具、迭代细化来完成复杂的任务。
AI 的下一阶段竞争,将不再仅仅是模型的规模之争,而是运营卓越、文化适应性和多语言能力的全面较量。对于所有参与者来说,尽早找到并“穿上”那双能解决高价值工作负载的“玻璃鞋”,才是决定长期成功的关键。