2025 年 12 月,硅谷风险投资机构 Andreessen Horowitz(简称 a16z)与 AI 推理服务平台 OpenRouter 联合发布了一份名为《State of AI》的研究报告。这份报告基于 OpenRouter 平台上超过 100 万亿 token 的真实用户交互数据,试图呈现过去一年间大语言模型在实际应用中的真实状态。
报告发布的时间点正值 OpenAI 发布 o1 推理模型整整一年之后。那款代号“草莓”的模型当时标志着 AI 行业从单次前向推理向多步骤内部推敲的范式转变,而这一年里整个行业经历的变化比多数人预想的更为剧烈。
这份报告的价值在于数据来源。OpenRouter 作为连接用户与数百个 LLM 的统一推理接口,能够观察到开发者和终端用户究竟在用哪些模型、做什么任务、花了多少钱。这种视角与 OpenAI 或 Anthropic 等单一模型提供商的内部数据不同,也有别于学术界通常依赖的基准测试分数。
报告作者明确说明,他们没有访问任何用户的提示词或模型输出内容,所有分析都基于元数据——时间戳、模型选择、token 计数、工具调用状态等。这种设计使得大规模行为分析成为可能,尽管也带来了某些分类精度上的限制。
开源与中型模型的强势崛起
报告首先呈现的是开源与闭源模型之间的竞争格局。数据显示,开源模型(报告中缩写为 OSS)的市场份额在过去一年稳步攀升,到 2025 年末已接近 30%。一年前开源阵营在总 token 消耗中的占比还相当有限,这个增长曲线算得上陡峭。
![]()
图丨开源与闭源模型的分化(OpenRouter)
在其中,中国开发的开源模型贡献了其中相当大一部分。从 DeepSeek 到阿里的通义千问(Qwen),再到月之暗面(Moonshot AI)的 Kimi 系列,这些名字在一年前对多数海外开发者还比较陌生,如今却频繁出现在 OpenRouter 的使用榜单上。报告数据显示,中国开源模型的周占比曾触及 30%,全年平均约为 13%,与非中国开源模型的 13.7% 基本持平。开源阵营内部已经形成了中美两大势力并立的局面。
![]()
图丨按模型类型划分的每周 token 使用量 (OpenRouter)
报告认为,中国开源模型的崛起得益于密集的迭代周期和具有竞争力的模型质量。DeepSeek 和 Qwen 都保持着频繁的版本更新节奏,能够快速响应新兴的工作负载需求。与此同时,闭源模型,如 Anthropic、OpenAI 和 Google,仍然占据着大约 70% 的市场份额,尤其在需要高可靠性的企业级应用和受监管行业中保持明显优势。
报告将这种状态描述为“双轨结构”:闭源系统定义性能上限,开源系统提供成本效率和定制灵活性,两者在开发者的多模型技术栈中各有分工。
在模型规模的维度上,报告揭示了一个值得关注的趋势:中型模型正在崛起。报告将模型分为三档,小型(15B 参数以下)、中型(15B 至 70B)和大型(70B 以上)。数据显示,小型模型的使用份额持续下滑,尽管市面上这类模型的数量还在增加;大型模型的份额在增长,但并未出现一家独大的局面,Qwen、Z.AI、OpenAI 的 GPT-OSS 系列等多个玩家都维持着可观的使用量;
![]()
图丨开源模型规模与使用量(OpenRouter)
真正的增长来自中型模型。这个细分市场在一年前几乎不存在,直到 2024 年 11 月 Qwen2.5 Coder 32B 的发布才真正打开局面,随后 Mistral Small 3、GPT-OSS 20B 等竞争者陆续入场。报告认为,中型模型的崛起反映了用户对能力与效率平衡点的追求:既要足够聪明,又不能太贵太慢。
出人意料的使用场景
使用场景的分布则多少有些出人意料。报告使用 Google Cloud Natural Language API 对约 0.25% 的提示词样本进行了内容分类,结果显示:在开源模型的使用中,角色扮演(Roleplay)类任务占据了超过一半的 token 消耗,编程位居第二,约占 15% 至 20%。
这与许多人的直觉认知可能不太一样,大语言模型不是应该主要用于写代码、回邮件、做摘要吗?现实情况是,大量用户把这些模型当作互动叙事的伙伴,用于故事创作、角色扮演游戏、虚拟对话等场景。
![]()
图丨开源模型的类别趋势(OpenRouter)
报告对这一现象的解读是:角色扮演任务需要灵活的回应风格、上下文记忆和情感细腻度,而开源模型在这方面反而有优势。它们可以被更自由地微调,不受商业安全过滤器的严格约束,更容易满足幻想类和娱乐类应用的需求。从游戏社区、同人小说创作到模拟环境,这些看似“非生产力”的用途实际上构成了开源模型的核心使用场景。
编程虽然在开源模型中位居第二,但如果把闭源模型纳入统计,情况就不同了。报告显示,编程任务在全部 LLM 使用中的占比从 2025 年初的约 11% 一路攀升至近期的 50% 以上,成为增长最快、竞争最激烈的类别。Anthropic 的 Claude 系列在这个领域占据主导地位,长期保持 60% 以上的份额,尽管最近几周首次跌破这一阈值。
OpenAI 在编程市场的份额从约 2% 增长到 8%,Google 稳定在 15% 左右,而 MiniMax、Z.AI、Qwen 等新势力也在快速渗透。报告将编程描述为“最具战略重要性的模型类别”:它吸引了顶级实验室的持续投入,即便模型质量或延迟上的微小变化也可能导致市场份额的周度波动。
Agentic 推理时代的来临
另一个核心发现是“Agentic Inference”(Agentic 推理)的崛起。这个术语描述的是一种新兴的 LLM 使用范式:模型不再只是完成单次文本生成,而是被部署为更大自动化系统中的组件,进行多步骤规划、调用外部工具、在扩展上下文中持续交互。报告通过几个代理指标来追踪这一趋势:推理模型的使用份额、工具调用行为的扩展、序列长度的变化,以及编程任务驱动的复杂性增长。
数据显示,推理优化模型(如 o1、GPT-5、Claude 4.5、Gemini 3 等)在总 token 中的占比已从 2025 年初的很小比例攀升至超过 50%。
![]()
图丨推理与非推理 token 趋势(OpenRouter)
这反映了市场两端的变化:供给侧,更强的推理模型不断涌现;需求侧,用户越来越偏好能够管理任务状态、遵循多步骤逻辑、支持代理式工作流的模型。工具调用的使用量也在稳步上升,尽管报告中图表显示 5 月份出现过一次异常峰值(归因于某个大型账户的活动),但整体趋势是清晰的。
Anthropic 的 Claude 系列在工具调用领域保持领先,Claude 4.5 Sonnet 在 9 月末之后快速获得份额,而 xAI 的 Grok Code Fast 和 Z.AI 的 GLM 4.5 也在积极渗透。
更直观的变化体现在序列长度上。报告发现,平均提示词长度在过去一年增长了近四倍,从约 1,500 个 token 增至超过 6,000 个;输出长度也接近翻了三倍。这种“膨胀”的主要驱动力是编程任务,代码理解、调试和生成类请求的输入 token 经常超过 20,000 个,远高于其他类别。
报告将这种模式解读为使用范式的转变:典型的 LLM 请求不再是开放式的生成任务(“帮我写篇文章”),而更多是在大量用户提供的材料(代码库、文档、长对话历史)上进行推理,并产出精炼的洞察。模型正在从“创意生成器”转型为“分析引擎”。
报告对 Agentic 推理趋势的判断比较直接:这将成为新的默认模式。对模型提供商而言,延迟、工具处理能力、上下文支持和对异常工具链的鲁棒性变得越来越关键;对基础设施运营商而言,推理平台需要管理的不再只是无状态请求,而是长时间运行的对话、执行轨迹和权限敏感的工具集成。
全球化的 AI 版图与成本取舍
地理分布分析揭示了 AI 使用日益全球化和去中心化的趋势。报告显示,北美虽然仍是最大的单一市场,但在多数时间里已不到总消费额的一半;欧洲保持稳定的中等份额(通常在 15% 至 20% 之间);真正的变量是亚洲,其份额从早期的约 13% 一路增长到最近的 31%。
![]()
图丨按世界各地区随时间的使用量(OpenRouter)
这种增长既反映了亚洲地区企业采用 AI 的提速,也与中国开源模型的全球输出相呼应。语言分布上,英语仍占绝对主导(82.87%),但简体中文以 4.95% 位居第二,俄语、西班牙语、泰语也各有份额。
在商业维度上,报告分析了成本与使用量之间的关系,结论有些出人意料:价格对需求的影响相当有限。在对数坐标的散点图上,各模型呈现高度分散的分布,但整体趋势线几乎是平的:价格下降 10%,使用量仅增加约 0.5% 至 0.7%。这种低弹性表明,LLM 市场尚未完全商品化,差异化仍有价值。
![]()
图丨按类别的对数成本与对数使用量对比(OpenRouter)
报告将市场分为四个象限:高价高使用量的“Premium Leaders”(如 Claude 3.7 Sonnet、Claude Sonnet 4)、低价高使用量的“Efficient Giants”(如 Gemini 2.0 Flash、DeepSeek V3)、低价低使用量的“Long Tail”如 Qwen 2 7B Instruct、IBM Granite 4.0 Micro)、以及高价低使用量的“Premium Specialists”(如 GPT-4、GPT-5 Pro)。
闭源模型倾向于捕获高价值任务,开源模型则吸收价格敏感的大量使用,这是一个相对稳定的分工,但开源模型持续逼近性能边界,不断压缩闭源模型的定价空间。
“灰姑娘的水晶鞋”效应
报告中最有意思的分析之一出现在用户留存章节。报告提出了一个概念:“灰姑娘水晶鞋效应”(Cinderella Glass Slipper Effect)。这个比喻描述的是:在快速演进的 AI 生态中,存在一批高价值工作负载长期未被满足;每当新的前沿模型发布时,它实际上是在与这些“开放问题”进行匹配测试;如果某个模型恰好满足了某个之前无法解决的技术和经济约束,它就实现了精准的“契合”,就像灰姑娘的水晶鞋一样。
对于那些工作负载终于“合脚”的开发者或组织,这种匹配会产生强烈的锁定效应。他们的系统、数据管道和用户体验会围绕这个首先解决问题的模型构建起来,随着成本下降和可靠性提升,重新选型的动力急剧减弱。而那些尚未找到匹配的工作负载则继续在不同模型间迁移,寻找自己的解决方案。
报告在留存曲线中观察到了这种效应。Gemini 2.5 Pro 的 2025 年 6 月队列和 Claude 4 Sonnet 的 5 月队列在第 5 个月仍保持约 40% 的留存率,显著高于后续加入的队列。这些“基础队列”似乎对应着特定的技术突破(如推理保真度或工具使用稳定性),使得之前不可能的工作负载变得可行。
![]()
图丨Gemini 2.5 Pro 和 Claude 4 Sonnet 的留存率(OpenR)
OpenAI GPT-4o Mini 的留存图更为极端:2024 年 7 月的单一发布队列建立了压倒性的粘性工作负载匹配,之后所有队列都表现出相同的高流失率并聚集在底部。这表明建立这种基础匹配的时间窗口是独特的,只发生在模型被视为“前沿”的那个时刻。
相反,Gemini 2.0 Flash 和 Llama 4 Maverick 的图表展示了当这种初始契合从未建立时会发生什么。它们的留存图中没有出现任何高表现的基础队列,每个队列都表现出相同的较差留存。这意味着这些模型从未被视为某个高价值工作负载的“前沿”,它们直接进入了“足够好”的市场,因此未能锁定稳定的用户基础。
DeepSeek 的图表则呈现出另一种模式:某些队列在初期流失后出现了“复活跳跃”,用户在尝试了其他替代品后又回归。报告将这种“回旋镖效应”解释为用户通过竞品测试确认 DeepSeek 在特定工作负载上仍是最优选择。
总结
报告在讨论部分总结了几个要点。第一,多模型生态已成事实。没有单一模型主导所有使用场景,开发者应保持灵活性,为不同任务选择最佳模型。
第二,使用多样性超越生产力工具的范畴。角色扮演和娱乐类使用的规模表明,许多用户与这些模型的互动并非为了写代码或做摘要,而是为了陪伴、探索或消遣。
第三,Agentic 推理正在成为常态。从单轮交互到多步骤规划、工具调用和持续推理的转变,将重新定义模型评估标准,从语言质量转向任务完成效率。
第四,全球化和去中心化正在加速。亚洲市场份额的快速增长和中国模型的全球输出意味着,下一阶段的竞争将在很大程度上取决于文化适应性和多语言能力。
报告也说明了自身的局限性。它反映的是单一平台上观察到的模式,某些维度,如企业内部使用、本地部署或封闭的内部系统等超出了数据范围。部分分析依赖代理指标,如通过多步骤或工具调用来识别代理推理,或通过账单地址而非验证位置来推断用户地理。因此,其结果应被解读为指示性的行为模式,而非底层现象的确定性测量。
参考资料:
1.https://openrouter.ai/state-of-ai
运营/排版:何晨龙





京公网安备 11011402013531号