当前位置：首页 » 资讯 » 新科技 » 正文

腾讯出牌方式变了

IP属地中国·北京 编辑：任飞扬新浪财经 时间：2026-04-28 01:44:01

虎嗅APP
姚顺雨首秀为何与市场预期错位？
出品|虎嗅黄青春频道
作者|商业消费主笔黄青春
题图|视觉中国
姚顺雨执掌腾讯混元后的首秀，最终被 DeepSeek-V4 的讨论淹没了。
4 月 23 日，腾讯正式发布并开源混元 Hy3 preview 语言模型——这是姚顺雨主导混元技术体系全面重建后，交出的首份落地成果。
在此之前，市场对姚顺雨的期待值早已拉满：清华姚班出身、OpenAI 前核心研究员、AI 领域顶尖专家，入职即获得集团层面双线汇报的最高权限，一手推动腾讯混元大模型研发架构重构，还打破盘桓多年的部门墙，让成立十年的 AI Lab 打散重组。
有鉴于此，外界翘首以盼腾讯拿出一款颠覆性的新模型，但 Hy3 preview 最终的市场声量与讨论度并不及预期。这很大程度上源于，同期 GPT-5.5、小米 Mimo、Kimi K2.6 等新模型密集发布，次日 DeepSeek-V4 也强势登场。
这让混元有限的声量彻底在这轮大模型更新浪潮中“失声”，业内因此有人揶揄腾讯，“不如关停混元，高价收购 DeepSeek”。
对此，腾讯内部人士向虎嗅透露，与外界期待姚顺雨“单骑救主”的英雄主义叙事不同，团队对这一版本并未设定过高目标，因为 Hy3 preview 并非对 Hy2.0 的迭代，而是腾讯混元技术体系的一次推倒重建。
“Hy3 预览版与 DeepSeek-V4 的核心差异在于，后者暂不考虑商业化，专注于突破技术上限；而混元从研发之初就以适配腾讯业务生态为核心，强调与场景的深度绑定。如今 AI 行业已进入下半场，模型能力、生态资源与工程化实力将形成协同效应——毕竟腾讯从来不是一家单纯的模型公司。”该内部人士表示。
腾讯终究“差了一口气”？
从官宣预热到最终发布，Hy3 preview 的表现与市场拉满的期待存在明显落差。
自高调宣布姚顺雨加盟以来，腾讯便对其展现了超乎寻常的重视：一人身兼“CEO/总裁办公室”首席 AI 科学家、AI Infra 部与大语言模型部负责人两大职务，同时向腾讯总裁刘炽平、技术工程事业群总裁卢山双线汇报。
这种人事安排在腾讯发展史上颇为罕见，等于从集团层面确立了大模型的战略核心地位，也向市场传递出腾讯 All in AI 的决心。
3 月 18 日的财报电话会上，刘炽平的表态更将市场期待推至顶峰：他明确透露混元全新技术体系下的旗舰模型 Hy3.0 正处于内部业务测试阶段，计划于 4 月对外推出，且相较于 Hy2.0 的能力提升幅度，将超过混元历史上任何一次版本迭代。
叠加 2026 年二季度全球大模型赛道进入新一轮密集发布期：Anthropic 发布 Claude Opus 4.7、阿里推出 Qwen3.6-Max-Preview、Kimi 开源 K2.6、小米官宣 Mimo 全系列新模型，GPT-5.5 与 DeepSeek V4 前后脚上桌——如此“神仙打架”的贴身肉搏，市场自然期待腾讯能拿出一款足以改写国内大模型格局的旗舰产品。
然而，与拉满的市场预期形成鲜明对比的是，Hy3 preview 虽踩点交付，但技术突破有限，在各个维度均未给市场带来预期中的惊喜。
首先，腾讯高管承诺 4 月推出核心版本，4 月底却只发布了 Hy3 预览版，勉强踩中时间节点，未体现出腾讯作为行业巨头应有的执行力与爆发力。
对此，腾讯内部人士向虎嗅表示，实际上 Hy3 预览版是技术重建的起点，正式版及更高级别的版本还在同步研发测试中。“Hy3 基本完成了对原有技术架构的全面重构，这个版本的核心目标是验证全新技术路线、磨合重组后的团队并跑通完整研发流程，且仅用不到三个月就完成交付，而行业同类技术重构通常需要 6-12 个月。”
其次，在行业动辄以 1T 参数炸场的当下，Hy3 preview 总参数 295B、激活参数 21B 的规格无法给市场带来冲击力，被业内人士吐槽不够顶尖、不够震撼。
从实测与行业评测结果来看，Hy3 preview 的综合能力虽达到国内一线水平，但极限推理能力仍逊于 GLM-5、Gemini 3.1 等顶级模型；代码与智能体能力仅相当于 GLM-4.7——也就是智谱 AI 四个月前的技术水平，既没有实现市场期待的代差级突破，更谈不上对标全球顶级模型。
可如果抛开市场的高预期滤镜，回归模型本身的技术与落地能力，Hy3 preview 已然是腾讯混元历史上进步幅度最大、实用性最强的版本。
推理效率层面，得益于模型架构与推理框架的深度协同，Hy3 preview 整体推理效率提升 40%，首 token 延迟降低 54%，端到端时长降低 47%，成本较上一代模型大幅下降——等于说，决定用户体验与商业化可行性的核心指标均被大幅优化。
复杂推理能力层面，Hy3 preview 在 FrontierScience-Olympiad 拿下 70.0 分、IMO Answer Bench 达到 84.3 分，整体表现超过 GLM-5、Kimi-K2.5，接近 Gemini 3.1 Pro 与 GPT-5.4。
代码与智能体能力是 Hy3 preview 提升最显著的方向。在 SWE-Bench Verified 基准测试中达到 74.4% 的通过率，逼近 GLM-5 与 Kimi-K2.5；在 Terminal-Bench 2.0 测试中取得 54.4% 的得分，超过 GLM-4.7 等模型，挤进行业第一梯队；在涵盖 16 项基准的 Agent 综合评测中，平均得分从 Hy2 的 35 分跃升至 56 分，接近 GLM-5 与 Kimi-K2.5 所在的旗舰区间。
这些能力跃升背后，是 Hy3 preview 从研发之初就确立了与产品深度协同设计（Co-Design）的研发路线。
虎嗅获悉，Hy3 preview 发布之时，已率先接入腾讯云、元宝、IMA、CodeBuddy、WorkBuddy、QQ 等十余条核心产品线，且在每一个落地场景中都拿到了可量化的业务成果。
在办公场景，腾讯文档 AI PPT 功能接入后，生成成功率提升 20%，评测得分提升 10%，生成耗时缩短 20%，在模板选择、内容生成、视觉匹配等环节幻觉显著减少，契合度大幅提升；WorkBuddy 产品接入后，与国内同尺寸模型的用户盲评胜率达到 56%，能稳定覆盖文档处理、数据分析、知识检索、工具链编排等复杂办公场景。
在社交与内容场景，元宝 APP 已与模型完成深度协同优化，提升了意图理解、文本创作、深度搜索的核心能力，能为用户带来更具“活人感”的交互体验；公众号 AI 分身场景中，模型在用户意图理解、复杂上下文承接、知识信息组织方面的能力显著提升。
在游戏场景，《和平精英》已全面接入 AI NPC 玩法，局外人设扮演场景中，模型能精准理解角色设定，输出高关联、高增量的交互内容；局内复杂对战场景中，回复节奏贴近真实玩家，展现了极强的稳定性与拟人化能力，累计体验用户已突破 1.1 亿。
除此之外，QQ 浏览器、腾讯新闻、腾讯客服等数十款腾讯核心产品，均在接入过程中，Hy3 preview 已真正融入腾讯业务生态，而非一款孤立的实验室模型。
务实主义的路线错位？
“Hy3 preview 是混元大模型重建的第一步。”在 Hy3 preview 发布的官方推文中，姚顺雨如是写道。
即便首秀没能刷出与腾讯影响力匹配的声量，并不意味着 Hy3 preview 是一款失败的模型。虎嗅认为，某种程度上，姚顺雨为混元制定的核心路线，与当下行业的狂欢逻辑、市场的期待方向，存在明显的偏移与错位。
腾讯混元团队向虎嗅表示，外界多是围观视角，难以体会此次技术重建之难——不仅要搭建全新的基础设施，还要更换整套训练范式，几乎等同于从零开始重做一个大模型。
“比如数据审核就是姚顺雨亲自抓的，在三个多月内主导完成了对过往繁杂、冗余 SFT 数据的全面去重与精细化管控。目前，模型效果已经取得阶段性进步，但仍存在一些已知问题，比如工具调用中的错误恢复能力不足，以及对推理超参数较为敏感。希望通过这次开源和发布，获得来自开源社区和用户的真实反馈，助力 Hy3 正式版进一步提升实用性。”上述人士说道。
事实上，姚顺雨入职腾讯后，对混元团队推行的第一项核心变革，就是否定“唯榜单论”的研发逻辑。他在内部会议上指出，过去混元模型过度追逐榜单成绩，甚至直接将打榜专用语料混入训练集，导致数据被严重污染，影响模型在真实场景中的表现。有鉴于此，姚顺雨为团队划出一条清晰的路径：不迷信打榜，更不用盯着榜单做事。
虎嗅独家获悉，今年 2 月，姚顺雨主导重建了预训练和强化学习的基础设施，并确立了模型研发追求实用性的三大核心原则：

能力体系化：不推崇偏科，即便是代码智能体这类单一应用场景，也涉及推理、长文、指令、对话、代码、工具等多种能力的深度协同。

评测真实性：主动跳出易被刷榜的公开榜单，通过自建题目、最新考试、人工评测、产品众测等方式评估和改进模型的真实战斗力。

性价比追求：实用性离不开商业合理性，通过深度协同模型架构与推理框架设计，大幅降低任务成本，让智能用得起、用得好。
与此同时，混元团队在继续扩大预训练和强化学习的规模，提升模型的智能上限，并通过与腾讯更多产品场景的深入协同设计，进一步探索基于产品场景的特色能力。
基于这一理念，Hy3 preview 跳出行业通用的公开评测体系，腾讯混元团队自建了 50 余个基准测试集，通过自建题目、最新考试、人工评测、产品众测等多种方式，综合评估模型的真实战斗力。
据虎嗅了解，腾讯专门打造了 CL-bench、CL-bench-Life、Hy-Backend、Hy-SWE Max 等一系列贴合真实业务场景的评测体系，核心目标只有一个：验证模型在真实场景中的可用性，而非实验室里的纸面跑分。
要知道，当下大模型赛道，公开榜单的分数是最直观、最易传播的能力证明，更是模型出圈、获得市场认可的保证——如果不打榜、不拿出碾压同行的榜单数据，市场就会默认你不具备对应的能力，普通用户更不会感知到你的技术进步。
拿 Hy3 preview 受争议的 295B 参数规格来说，这恰恰是姚顺雨“实用优先、放弃炸场”路线的体现。在行业普遍通过“堆参数、规模扩容（Scale Up）”实现能力提升的当下，姚顺雨选择反其道而行之：Hy3 preview 总参数甚至小于前一版本，核心资源并未投入到参数规模扩张上，而聚焦于数据质量的提升，近乎完成了对 Hy2 模型底座的重构。
这一反行业常规的演进路线，源于腾讯混元对技术实用性的判断：

能力边界：复杂推理、长上下文理解、指令遵循等核心实用能力，在 300B 参数量级已能充分释放，盲目扩大参数带来的能力边际收益已大幅递减。

成本控制：300B 级混合专家模型（MoE）经量化后可实现单机部署，而 1T 级模型必须跨节点运行，多机通信会导致延迟、吞吐和运维复杂度显著上升，推理成本更是相差数倍。

落地可行性：绝大多数商业场景可通过检索增强生成（RAG）、智能体（Agent）等工程手段弥补与顶级模型的能力差距，而 300B 级模型的低推理成本和低微调门槛，让私有化部署与行业定制化成为可能。
顺着上述判断，Hy3 preview 要将价格打下来：腾讯云公开的 API 定价，在 0-16K 上下文范围内，输入最低 1.2 元 / 百万 tokens，命中缓存后低至 0.4 元 / 百万 tokens，输出最低 4 元 / 百万 tokens；与此同时，推出的个人版套餐最低 28 元 / 月，在同级别旗舰开源 MoE 模型赛道中，处于最低价梯队。
然而，市场期待的是腾讯向上突破、拿出一款“碾压同行、对标 GPT”的顶级旗舰，期待看到巨头拿出炸场的参数、震撼的行业跑分，而非精打细算的性价比、面向落地的工程化产品。
这种市场期待与腾讯实际战略选择之间的错位，正是市场产生心理落差的核心原因。
当然，腾讯在 AI 赛道最大的底牌是其无可替代的生态体系与工程化能力，这也是市场始终对腾讯混元抱有逆袭期待的核心原因。
在生态层面，腾讯“两肋生风”：手握微信 14.18 亿月活的国民级流量入口，还有 QQ、游戏、办公、内容、金融等全场景应用矩阵，是国内拥有最多真实应用场景的互联网巨头——而真实场景的用户反馈、海量的业务数据，是模型迭代最核心的“燃料”。
在商业化层面，AI 正扛着腾讯业务跑：

2025 年腾讯广告收入同比增长 19% 至 1449.73 亿元，核心驱动力就是 AI 改写了广告业务的底层逻辑；

游戏业务收入同比增长 22% 达 2416 亿元，超 40 款腾讯游戏落地 AI 应用，覆盖研发、玩法、运营全链路，人效与收入均实现大幅提升；

腾讯云更是首次实现规模化盈利，大模型相关产品收入近两年增长 50 倍。
从最终结果来看，姚顺雨仅用三个月时间完成技术重建，并实现全业务场景快速落地，让此前掉队的腾讯混元重新跻身国内大模型第一梯队。他为腾讯混元制定的“不偏科、不刷榜、重性价比、深度贴合业务场景”研发路线，正契合 AI 行业从参数狂欢向落地实用回归的长期大趋势。
正如姚顺雨年初回应虎嗅的那样，大模型上半场竞争的核心是模型训练与参数突破，下半场的竞争重心将转向任务定义、系统构建与真实问题解决能力——从这个角度看，腾讯的生态优势、工程化能力、商业化体系，在 AI 下半场拥有巨大的想象空间。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

腾讯最新大模型，详解腾讯全景

近百万字素材秒级处理国产开源大模型再升级

项目管理AI第一枪，为什么是飞书项目？

900余家企业受自动化攻击威胁，360预警AI黑客进入“流水线作业”阶段

走进华为｜与名企同行-黄鹤之星特训营领航班：数智驱动未来，共探企业转型升级新路径

广东这场AI大会上，一个更清晰的信号出现了：硬件正在成为大模型落地的重要入口

全站最新

腾讯最新大模型，详解腾讯全景

近百万字素材秒级处理国产开源大模型再升级

项目管理AI第一枪，为什么是飞书项目？

900余家企业受自动化攻击威胁，360预警AI黑客进入“流水线作业”阶段

热门推荐

腾讯最新大模型，详解腾讯全景

近百万字素材秒级处理国产开源大模型再升级

项目管理AI第一枪，为什么是飞书项目？

900余家企业受自动化攻击威胁，360预警AI黑客进入“流水线作业”阶段

走进华为｜与名企同行-黄鹤之星特训营领航班：数智驱动未来，共探企业转型升级新路径

广东这场AI大会上，一个更清晰的信号出现了：硬件正在成为大模型落地的重要入口

谷歌开源“Agent Skill 超级工具箱”，云、库、引擎、AI全线打通，开发者狂喜

追觅CEO俞浩：小红书是一个非常非常烂的平台

腾讯新模型发布，姚顺雨交卷了

中美AI大模型调用量交替领先：一场没有终点的追逐

OpenAI来抢手机饭碗，移动互联网会被改写吗

被低估的Hy3 preview：腾讯基模能力正在重回牌桌

AI以假乱真，互联网还信啥？

又一估值千亿大模型独角兽将诞生！加拿大独角兽合并德国AI明星创企

HappyHorse-1.0上线：阿里AI视频模型开放邀测，抢滩生成式视频市场