OpenRouter年次レポート解説：100兆トークンは何に使われているのか？

序章：LLMの転換点と見過ごされてきた真実

2024年は、大規模言語モデル（LLM）にとって名実ともに転換点となりました。その年の12月5日、広く採用された初の推論モデルであるo1のリリースに伴い、AI分野は単純な**シングルパスのパターン生成（single-pass pattern generation）**から、**マルチステップの熟考的推論（multi-step deliberation inference）**というパラダイムへと完全に移行しました。

この変革は大規模モデルの展開と応用を加速させましたが、同時に一つの問題を提起しました。それは、猛烈な技術的進歩の波の中で、これらのモデルが現実世界で具体的にどのように使用されているかについて、十分な経験的理解が不足しているということです。

数百のLLMを接続するAI推論サービスプロバイダーであるOpenRouterは、100兆トークンを超える実世界のLLMインタラクションデータを分析しました。この分析は、いくつかの一般的な誤解を正すだけでなく、将来のモデル構築者、開発者、インフラプロバイダーが注目すべき6つの核心的なトレンドを指摘しています。

驚きその1：真の「トラフィック王」は誰か？生産性を圧倒するロールプレイ

もしユーザーがAIを使って最も行っていることは何かと推測するなら、あなたはコードの記述、メールの作成、あるいは要約だと答えるかもしれません。しかし、この100兆トークンのデータは、予想を裏切る答えを提示しました。**創造的な「ロールプレイ」（creative roleplay）**への需要が、多くの人が予想した「生産性タスク」をはるかに上回っていたのです。

1. 予想外のトップ：ロールプレイの爆発的成長

すべてのオープンソース大規模モデルのトークン使用総量において、「ロールプレイ」は一貫して支配的な地位を占めており、約 50%のシェア で安定しています。これは、ユーザーがオープンモデルを主に創造的な対話、ストーリーテリング、ロールプレイ、ゲームシナリオに使用していることを意味します。

この現象は、オープンソースモデルのユニークな利点を反映しています。それらは創造的なアプリケーションに使用でき、通常、商用利用の厳格な安全性やコンテンツモデレーションの制限を受けにくいのです。ユーザーはLLMを単なるチャットボットとしてではなく、構造化されたロールプレイのパートナーや「ペルソナエンジン」として見ています。この発見は、消費者向けアプリケーション、特にインタラクティブな物語、ゲーム、バーチャルキャラクターの分野におけるAIの巨大な可能性を示唆しています。

注目すべきは、ロールプレイがオープンソースモデルの最大の用途であるものの、それがオープンソースモデルの独占領域ではないということです。2025年末までに、ロールプレイのトラフィックは、非中国系のオープンソースモデル（43%）とクローズドソースモデル（42%）の間でほぼ均等に分割されました。これは、ユーザーが創造的なチャットやストーリーテリングにおいて、オープンかクローズドかを問わず、実行可能な選択肢を持つようになったことを示しています。

2. 静かなるインフラ構築者：プログラミングワークロードの急増

ロールプレイに次いで、「プログラミング支援」（programming assistance）がオープンソースモデルの2番目に大きな使用カテゴリであり、約15%から20%のシェアを占めています。多くの開発者がコード生成やデバッグにオープンソースモデルを利用しています。

視野をすべてのLLM（クローズドおよびオープンソースを含む）に広げると、プログラミングは最も急速に成長しており、最も支配的なカテゴリとなっています。プログラミング関連のクエリが総トークン量に占める割合は、2025年初頭には約11%でしたが、ここ数週間でその割合は 50% を超えました。この傾向は、LLMが探索的または対話的な用途から、コード生成、デバッグ、データスクリプト作成などのアプリケーション指向のタスクへと移行していることを示しています。

プログラミング分野では、AnthropicのClaudeシリーズが一貫して支配的であり、このカテゴリの支出の60%以上を占めています。しかし、LLMが開発者のワークフローに組み込まれるにつれて、プログラミングタスクはコンテキスト長の急増を牽引する主な要因ともなっています。コード理解やデバッグを含むリクエストは、入力トークン量が 20K を超えることがよくあります。

驚きその2：オープンとクローズドの「境界線」と「中規模の新星」

LLMのエコシステムは一強独占ではなく、オープンソース（OSS）とプロプライエタリ（Proprietary）モデルが共存する「二重構造」を呈しています。

1. 30%の黄金比と中国の力

クローズドソースモデル（特に北米の主要プロバイダーのモデル）が依然としてトークン使用量の大半を占めていますが、オープンソースモデルのシェアは着実に増加しており、2025年末には総トークン使用量の約 3分の1（30%） に達しました。

特筆すべきは、中国で開発されたオープンソースモデルが著しい成長に貢献したことです。2024年末時点での市場シェアはごくわずか（週次1.2%のみ）でしたが、2025年後半には力強い成長を見せ、週によっては全モデルの総使用量の 30% 近くに達することさえありました。**Qwen（通義千問）**や DeepSeek（深度求索） のようなモデルは、迅速なイテレーションと高頻度のリリースサイクルを通じて、オープンソース市場の構造を実質的に再形成し、世界的な競争を促進しました。

2. DeepSeekの減速と市場の断片化

OpenRouterのデータは、LLM市場が統合から多様化と競争へと向かっていることを示しています。2024年末、DeepSeekファミリーの2つのモデル（V3とR1）はOSSトークン使用量の半分以上を継続的に占め、独占に近い構造を形成していました。

しかし、2025年の「夏の転換点」以降、このパターンは崩れました。Qwen、MiniMaxのM2、MoonshotAI（月之暗面）のKimi K2、そしてOpenAIのGPT-OSSシリーズなどの新規参入者が急速に台頭し、多くの市場シェアを奪いました。2025年末までには、単一のモデルでOSSトークンの25%以上を継続的に占めるものはなくなりました。

この変化は、ユーザーがもはや「最良」の選択肢をデフォルトとするのではなく、より幅広いモデルの選択肢の中から価値を見出していることを示しています。モデル構築者にとって、これは主要なオープンモデルをリリースすればすぐに注目を集めることができる一方で、市場シェアを維持するには継続的な開発投資が必要であることを意味します。

3. 中規模モデル：「モデル・マーケット・フィット」を見つけた新星

かつて、オープンソース市場は「小さくて速い」か「大きくて強力」かの二極化でした。しかし現在、**中規模モデル（150億〜700億パラメータ）**という、新たな成長カテゴリが出現しています。

データによると、小規模モデル（150億パラメータ未満）の全体的な使用シェアは低下しています。一方、中規模市場は「市場創出」のストーリーを明確に示しています。このセグメントは、2024年11月にQwen2.5 Coder 32Bがリリースされるまで本格的には確立されていませんでした。中規模モデル（Mistral Small 3やGPT-OSS 20Bなど）の台頭は、ユーザーが能力と効率のバランスを求めていることを示唆しています。

驚きその3：「一発回答」から「自律的行動」へ —— Agentic Inferenceの台頭

LLMの使用方法は根本的な変化を遂げています。単一のテキスト生成から、マルチステップ、ツール統合、そして推論集約的なワークフローへの移行です。この変化は 「エージェンティック推論」（Agentic Inference） の台頭と呼ばれています。

1. 推論モデルが新たなデフォルトに

2025年までに、推論最適化モデルを流れるトークン量の割合は急激に上昇し、現在は総使用量の半分を超えています。これは、GPT-5、Claude 4.5、Gemini 3などの高性能システムのリリースだけでなく、タスクの状態管理、マルチステップ論理の追従、エージェンティックなワークフローのサポートが可能なモデルへのユーザー需要の増加も反映しています。

xAIのGrok Code Fast 1は現在、推論トラフィックにおいて最大のシェアを占めており、GoogleのGemini 2.5 ProやFlashをリードしています。この傾向は、推論指向のモデルが実務的なワークロードのデフォルトの選択肢になりつつあることを示しています。

2. プロンプトが4倍に爆増、背後にはプログラミング

過去1年間で、モデルの入力（プロンプト）と出力（コンプリーション）のトークン量はどちらも大幅に増加しました。リクエストごとの平均入力プロンプトトークン量は約 4倍に増加し、約1.5Kから6K以上に成長しました。出力トークン量も約2倍に増加しました。

この成長は、ユーザーがオープンエンドな生成から、より複雑でコンテキスト豊富なワークロードへと移行していることを示しています。モデルは単なるクリエイティブなジェネレーターではなく、分析エンジンとしての役割を強めています。そして、この傾向の主な原動力こそが プログラミングワークロード です。プログラミング関連のプロンプトは、一般的なプロンプトに比べて平均して3〜4倍の長さがあります。より長いシーケンスは、単にユーザーが冗長なわけではなく、より複雑なエージェントワークフローが組み込まれていることの証です。

3. ツール利用：大規模モデルが「電話のかけ方」を学ぶ

ユーザーはますますツール呼び出し（Function Calling）機能を採用しています。実際に成功したツール呼び出しのトークン量の割合は約15%で安定していますが、AnthropicのClaudeシリーズやOpenAIのgpt-4o-miniなど、エージェンティックな推論のために明確に最適化されたモデルが、初期のツール呼び出し市場を支配しました。

ツール呼び出しの上昇トレンドにより、モデルプロバイダーはツール処理能力、コンテキストサポート、および非標準的なツールチェーンに対する堅牢性を向上させる必要があります。

驚きその4：地政学とAIのグローバル化

LLMの使用は北米に集中しているわけではなく、ますますグローバル化し、分散化しています。

北米の支出シェアは、ほとんどの観測期間において総支出の半分以下に低下しました。アジアは最先端モデルの生産者としてだけでなく、消費者としても急速に拡大しています。世界的な支出に占めるアジアのシェアは2倍以上に増加し、最近の期間では約 31% に達しました。中国のLLM企業（DeepSeek、Qwen、MoonshotAIなど）の台頭は、LLMが真に世界的な計算リソースとなったことを裏付けています。

言語分布に関しては、英語が依然として支配的です（トークンシェアの80%以上）。しかし、簡体字中国語も世界のトークン量の5%近くを占めており、特に中国のオープンソースモデルの成長を背景に、バイリンガルまたは中国語優先の環境での継続的な関与を反映しています。

驚きその5：ユーザーを繋ぎ止める「シンデレラ効果」

急速に発展する大規模モデルのエコシステムにおいて、モデルの「堀（Moat）」を測る真の尺度は、短期的な成長ではなく、ユーザーのリテンション（維持率）です。

研究では、持続的なリテンション現象を説明するために 「シンデレラのガラスの靴効果」（Cinderella “Glass Slipper” effect） という仮説を導入しました。この仮説は、急速に反復するAI市場には、未解決の高価値なワークロードのセットが存在すると考えます。新しいフロンティアモデルがリリースされると、それはこれらの保留中の問題に対して実質的に「試着」されます。新しいモデルが、これまで満たされていなかった技術的および経済的制約に完全に合致すると、それは正確なフィット感、つまり「ガラスの靴」を見つけるのです。

ワークロードが「ぴったり」合った開発者や組織にとって、この適合は強力なロックイン効果を生み出します。彼らのシステム、データパイプライン、ユーザーエクスペリエンスは、そのモデルに固定されます。たとえ後からより新しいモデルが登場しても、プラットフォームを変更する動機は急激に低下します。

リテンションが能力の変曲点を明らかにする: 例えば、Claude 4 Sonnetの2025年5月コホートとGemini 2.5 Proの2025年6月コホートは、5ヶ月目でも約40%のユーザーを維持しており、後のコホートよりもはるかに高い数字を示しました。これは、これらの初期コホートが「推論の忠実度」や「ツール使用の安定性」における技術的なブレークスルーに対応しており、以前は不可能だったワークロードを解決したことを示唆しています。
「ブーメラン効果」（Boomerang Effect）: さらに、DeepSeekのモデルチャートは稀な「復活」現象を示しています。一部のDeepSeekコホートでは、初期の解約後にリテンションが上昇しました。これは、代替案を試すために離脱した一部のユーザーが、独自の専門的なパフォーマンスやコスト効率のためにDeepSeekが特定のワークロードに最適であると確認し、戻ってきたことを示唆しています。

したがって、リテンションは単なる結果ではなく、モデル能力のブレークスルーを理解するための「指紋」となります。

驚きその6：高くても売れるが、安さは規模をもたらす

LLMの市場パフォーマンスはまだ完全にはコモディティ化されていません。価格と使用量の間には弱い相関関係しかありません。需要は価格に対して比較的非弾力的であり、価格が10%下がっても使用量は約0.5%〜0.7%しか増加しません。

ユースケースを単位コストと総量で対数スケール上にプロットすると、市場は4つの象限に分割されます：

象限名	特徴	主要カテゴリ	洞察と示唆
マスマーケット・ボリュームドライバー (Mass-Market Volume Drivers)	低コスト、高使用量	ロールプレイ、プログラミング	専門的な生産性（プログラミング）と対話型エンターテインメント（ロールプレイ）は、AIボリュームの2つの主要なドライバーです。オープンソースモデルはここで大きな優位性を見出しています。
専門エキスパート (Specialized Experts)	高コスト、低使用量	金融、学術、健康、マーケティング	ユーザーは、これらのリスクが高くニッチな分野での高精度に対してプレミアムを支払うことを厭いません。
ニッチユーティリティ (Niche Utilities)	低コスト、低使用量	翻訳、法律、雑学	これらの機能は高度に最適化またはコモディティ化されており、「十分使える」代替品が安価に入手できます。
プレミアムワークロード (Premium Workloads)	高コスト、高使用量	技術、科学	ユーザーは高性能と専門的な能力に対して対価を支払います。「技術」というユースケースは他のカテゴリよりもはるかにコストがかかりますが、高い使用量を維持しています。

クローズドモデル（AnthropicのClaude 3.7 Sonnetなど）は高コスト・高使用量の 「プレミアムリーダー」 ゾーンを占め、オープンソースモデル（DeepSeek V3など）は低コスト・高使用量の 「効率的な巨人」 ゾーンを支配しています。

これは、品質と能力がしばしばコストに勝ることを示しています。モデルが著しく優れているか、信頼の優位性（Claude Sonnetシリーズなど）を持っている場合、ユーザーはより高いコストを負担します。なぜなら、彼らのワークフローにおいて、APIコストは開発者の時間の節約などの価値に比べれば些細なものだからです。しかし同時に、コストの低下は「ジェヴォンズのパラドックス」的な効果をもたらします。極めて安価なモデル（効率的な巨人グループなど）がより多くの場所に統合され、最終的により多くの総トークン量を消費することになるのです。

結び：「直感」から「データ」へのAI新時代

OpenRouterに基づくこの実証研究は、LLMの使用方法に関する多くの「従来の常識」を正しました。私たちは、LLMが構造的に多様なエコシステムになりつつあり、将来の競争はモデルに依存しない、異質なものになることを目の当たりにしています。

o1クラスのモデルの登場により、評価は単発のベンチマークから、プロセス指標やタスク成功率へと移行しました。LLMの重心は「一点張り」から「システム思考」へ、「直感」から「データ分析」へとシフトしています。私たちはもはや、モデルが何を生成できるかだけでなく、継続的な推論、ツール呼び出し、反復的な改良を通じて、どのように複雑なタスクを完了するかに関心を持っています。

AIの次の競争フェーズは、単なるモデルの規模争いではなく、オペレーショナルエクセレンス、文化的適応性、多言語能力の総合的な戦いとなるでしょう。すべてのプレイヤーにとって、高価値のワークロードを解決するその「ガラスの靴」を早期に見つけ、「履く」ことこそが、長期的な成功を決定づける鍵となります。

OpenRouter年次レポート解説：100兆トークンは何に使われているのか？

Table of Contents