当前位置: 首页 » 资讯 » 新科技 » 正文

被低估的Hy3 preview:腾讯基模能力正在重回牌桌

IP属地 中国·北京 编辑:赵云飞 钛媒体APP 时间:2026-04-28 01:47:28

文 | 划重点KeyPoints,作者|林易,编辑|重点君

上周,腾讯混元Hy3 preview发布并开源。坦白讲,第一波行业讨论并没有想象中热烈,毕竟在GPT-5.5和DeepSeek V4前后脚上线的夹击下,一个不到300B参数的预览版似乎很难激起太多水花。

我们拿着这款模型,在复杂推理、代码开发、智能体落地三大核心场景做了几天的深度实测,最终得出一个结论:行业普遍低估了这次更新的分量。

在我们看来,这是腾讯大模型彻底重构的拐点,是属于腾讯的Gemini 2.5时刻。

大家一定记得谷歌大模型曾经的窘境。2023年底初代Gemini高调发布,本欲对标GPT-4改写行业格局,却因演示内容争议、实测能力不及预期陷入口碑泥潭,在此后一年多时间始终被GPT系列全面压制,这家AI领域的老牌巨头一度被行业唱衰 “掉队”。但随着DeepMind创始人哈撒比斯全面接管AI核心研发,对AI业务从组织架构到技术路线的全链路推倒重构,打破算法研发与算力基建的部门壁垒、砍掉冗余管理层级、推翻初代模型的路径依赖、重构训练体系与研发范式,最终凭借Gemini 2.5实现了核心能力的飞跃,重回全球大模型第一梯队。

现在,腾讯正在经历类似的时刻。据我们了解,Hy3 preview之后,腾讯下一代基础大模型参数将更大,综合能力将大幅提升。

实测之后,最强的感受是“稳了”

先说复杂推理。

我们给Hy3 preview的第一类题,是多条件、多轮推翻的推理任务:一家公司有5个部门、8个项目、12个人员,项目之间存在排期依赖、预算约束和人员冲突,要求模型给出可执行排期,并解释为什么某些方案不可行。

这类题最容易暴露模型的问题,前面算对,后面忘条件;局部合理,整体冲突;看起来写了一大段,真正落到执行表格里全是漏洞。

Hy3 preview的表现不算惊艳到碾压,但有两个明显变化:一是它会主动拆任务,把约束条件先列出来;二是在发现冲突时,会回到原条件里重新校准,而不是硬编一个答案。

这一点很关键,毕竟在Agent时代,模型最怕是太会说,错了还说得很完整。

第二类是代码。

我们让它写一个小型数据分析脚本:读取多张表,清洗异常值,按照不同维度生成统计结果,并给出可视化建议。进一步提高难度后,又让它根据报错信息修复依赖、字段缺失和边界条件。

这部分最明显的变化是,Hy3 preview不再像过去一些通用模型那样只会写一段看起来像代码的代码。它能理解任务结构,也能在报错后定位问题,修复思路比较清楚。

虽然在复杂工程项目里还不能说已经达到顶级Coding Agent水平,但对腾讯自己的开发者工具、办公智能体而言,已经到了可用性明显提高的区间。

第三类是智能体。

我们设计了一个更接近真实办公的场景:用户只说一句“帮我整理这周竞品动态,输出一页汇报提纲”,模型需要自己拆成搜索、筛选、去重、归纳、生成标题、压缩成汇报提纲结构等步骤。测试重点是它能不能在长链路中不跑偏。

Hy3 preview在这类任务上给人的感觉是开始有执行感了。它会区分哪些信息该进入正文,哪些只是背景;会把任务拆成阶段;也能在中间结果不完整时提示需要补充,而不是直接脑补到底。

这就是我们说的Gemini 2.5时刻,可以说是底层能力终于能支撑真实应用往前走。

三个月完成推倒重来

很多人不知道,Hy3 preview从预训练启动到正式发布,只用了短短三个月。

而在大模型行业,完成一次完整的底座模型训练与迭代,行业常规周期至少在6个月以上,当年meta、谷歌完成模型体系的重构,更是花了6-12个月的时间。

能在三个月完成这场极限挑战,核心原因在于,腾讯对混元大模型做了一场彻头彻尾的推倒重来,而非在上一代版本上的缝缝补补。

这场重构始于组织与人才体系的彻底洗牌。前OpenAI明星研究员姚顺雨出任腾讯首席AI科学家后,首先收拢了分散的AI研发力量,撤销原有AI Lab,将AI Infra部与大语言模型部合二为一,打破了算法研发与基础设施割裂的壁垒。

同时,团队推行极致的扁平化管理,取消总经理、总监等管理层级头衔,全面实行方向负责人制,决策链路大幅缩短,跨部门协作效率实现了质的飞跃。

其次是技术底座与训练范式的全面重建。

Hy3 preview没有沿用任何上一代的训练框架,Agent系统几乎从零搭建,预训练与强化学习的AI Infra基础设施、数据集全部重新开发。技术路线上,团队选择了经过行业验证的MoE混合专家架构,总参数295B,激活参数仅21B,在保证能力的同时,把推理效率做到了极致,全栈优化后推理效率较上一代提升40%。

更关键的是训练范式的底层转向:从过去重度依赖SFT监督微调,全面转向以RL强化学习为核心的后训练体系。如果说SFT是给模型灌输标准答案,那RL就是教会模型独立判断、解决未知问题。

这让模型摆脱了刷榜强、实战弱的困境,在千变万化的真实场景中,拥有了持续进化的能力。

三个月完成全链路重构,不仅证明了腾讯团队的工程化能力,更意味着这套全新的研发体系已经跑通。后续的正式版、更大参数的迭代版本,都能在这套体系里实现快速落地,腾讯的模型迭代速度,只会越来越快。

预览版还只是开胃菜

很多人只盯着Hy3 preview的参数和榜单数字,却忽略了一个关键信息:这只是一个预览版,真正的重头戏还在后面。

而腾讯能在大模型赛道实现长期追赶,最核心的底牌,是国内无人能及的全场景应用生态。

目前,Hy3 preview已经成为腾讯十余款核心产品的首选模型,这在混元的历史上还是第一次。从C端的元宝、QQ、腾讯文档、微信读书,到B端的CodeBuddy、WorkBuddy、腾讯云,再到垂类场景的和平精英AI NPC、微信公众号AI分身、腾讯智能客服,这款预览版模型已经完成了全场景的快速落地。

在元宝对话场景,模型带来了更具活人感的交互体验,不仅能精准理解用户的模糊需求,还能在多轮对话中保持情商在线、内容贴合语境;在腾讯文档AI PPT 场景,模型生成成功率提升20%,耗时缩短20%,彻底解决了过往内容幻觉、主题偏离的问题;在和平精英的游戏场景,AI NPC不仅能精准完成人设扮演,还能适配局内复杂的对战场景,回复节奏完全贴近真实玩家;在企业办公场景,CodeBuddy、WorkBuddy凭借模型的能力升级,首Token延迟降低54%,端到端时长降低47%,能稳定驱动数百步的复杂Agent工作流。

而这只是开始。腾讯手握微信、QQ两大国民级入口,覆盖社交、游戏、广告、金融、办公、生活服务等几乎所有互联网场景,每天触达十亿级用户。一旦“真实场景- 用户反馈 - 模型训练 - 能力升级 - 更多场景”的正向飞轮彻底转起来,腾讯大模型的长期进化潜力,是纯做底座的模型厂商无法比拟的。

AI大模型的竞争,是一场旷日持久的马拉松。这个赛道里,从来没有永远的领先者,也没有永远的落后者。真正决定长期胜负的,是能不能找对正确的方向,能不能完成持续的自我迭代,能不能把模型能力转化为真实的用户价值。

Hy3 preview的发布,可以说是让腾讯重回牌桌的起点。它证明了腾讯已经找对了实用为王的正确路线,完成了从组织到技术的全链路重构。

腾讯有领先的人才队伍,不缺数据,正在补齐算力短板,还有丰富的应用场景,随着时间推移,做不出顶尖大模型的概率只会越来越小。

接下来,当模型能力与腾讯的场景生态完成深度咬合,这场属于腾讯的AI反击,才刚刚拉开序幕。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。