当前位置: 首页 » 资讯 » 新科技 » 正文

马斯克xAI新模型上线,通过“50米外洗车店”测试,回答偏好高度贴合老马本人

IP属地 中国·北京 编辑:周伟 量子位 时间:2026-02-18 18:10:36

衡宇 发自 麦蒿寺

量子位 | 公众号 QbitAI

马斯克xAI人员大动荡,并没有妨碍它家新模型发布。

风口浪尖上,Grok 4.2突然上线了——不过是公测Beta版

对比如今动辄数万亿参数的模型方阵,Grok 4.2的参数仅有500B,略显克制。

或许也是因为如此,Grok 4.2的市场和用户反馈呈现出一种诡异的两极分化:连连盛赞者亦有之,骂骂咧咧者有之。

面对那部分排山倒海的质疑声,老马这位一向自信爆棚的硅谷狂人也有点坐不住

他在上对近十条Grok 4.2的夸夸推文又是点赞又是转发。

每一条都藏不住对自家新baby的认同和支持。

不仅如此,他还亲自发推公关:

公测将持续到下个月。公测结束后,Grok 4.2将比Grok 4快得多,也聪明得多。

我们知道目前仍有许多bug需要修复和改进,每天都在debug中~

据了解,Grok 4.2的底层架构具备每周自我迭代的能力,以后每周将更新一次

Grok 4.2公测版什么样?

关于Grok 4.2,其实早有预告。

回顾Grok 4.2的诞生历程,可谓是一部标准的“鸽王进化史”。

去年12月起,马斯克就开始在上频繁预热,多次提到“3–4 周内”或“下周上线 Grok 4.2”。

但发布时间多次推迟。相对应的,每次延后都会带来新的猜测。

这种反复跳票的行为在五天前达到了紧张的顶点——当时xAI的联合创始人接连离职,舆论情绪进一步放大,外界一度认为Grok 4.2要胎死腹中

马斯克紧急召开发布会,并在会上放出重话:

在预测能力上,Grok 4.2成功击败所有AI,横扫各大榜单。

直到今天,Grok 4.2公测Beta版终于正式上线。

最近国内AI圈爆火的新版弱智吧风格benchmark“50米外有个洗车店,我该开车去还是走路去”,Grok 4.2无惊无险机智通过测试。

BTW,Grok 4.2公测Beta版不是默认版本,用户需要手动选择才能使用

此次升级还首次引入快速学习能力,模型可以基于实时反馈持续优化。

马斯克在推文中强调,与以往版本那种静态的更新逻辑不同,Grok 4.2支持基于实时反馈的持续优化。

换句话说,Grok 4.2能像人类一样在实践中快速进化,每周更新成为自我进化的节奏的一部分。

不过,尽管马斯克喊出的口号震天响,但截至目前,xAI官方尚未释放出任何详尽的技术报告。

只有Leaderboard上面出现了对Grok 4.2的评测,具体情况如下:

由于整个模型底层训练细节、数据构成、具体benchmark表现仍然有限。

这让讨论更多停留在体验层面,而非技术细节层面。

毁誉参半,马斯克紧急公关

上线不到几个小时,Grok 4.2公测Beta版的口碑就出现了严重的撕裂。

在“不行派”的阵营里,很多深度用户和开发者表示,实际体验远不及预期,尤其是在处理高难度逻辑推理时,500B参数着实有点不够用。

有网友甚至调侃,马斯克所谓的“横扫榜单”可能存在特定的实验室优化环境。

Reddit上有网友猜测,一向高调的马斯克如此低调地发布Grok 4.2公测Beta版,主要原因还是因为模型能力无法与OpenAI和Anthropice的最新模型相媲美。

而且成本还贵出不老少……

此外有网友表示,虽然马斯克发推表示Grok 4.2是一个无偏见的模型,但现实情况很打脸——

根据测试,Grok 4.2的许多回答偏好都高度贴合马斯克本人。

当然,“夸夸派”也不少。

网友有夸奖Grok代码功能又快又好的:

有夸多模态能力的:

还有人测试表示,Grok 4.2通过了“Caitlyn Jenner”的AI测试,而ChatGPT和Gemini都失败了。

此前,这道题因为被Gemini回答为“不,哪怕为了阻止核末日也不应该误称性别”而被广泛议论,对话截图从而在 、油管等平台广泛流传,演化成一个固定格式的吐槽梗。

总之是给马斯克骄傲坏了。

他一连发布数条推文对自家新孩子大夸特夸,并借机回应那些不好的评价:

我们Grok 4.2还是个宝宝,后面每周会更新,等着瞧吧!

据AI工程师Mark Krechman透露目前发布的Grok 4.2是500B参数的“小”版本,Grok 4.2的中、大型版本稍后将推出(马斯克亲自转发认证此条消息的真实性)。

One More Thing

Grok imagine为马年推出视频生成模版,目前iOS可用。

感兴趣的小伙伴们可以一试。

标签: 马斯克 模型 上线 用户 老马 高度 网友 能力 开发者 舆论 演化成 情绪 平台 底层 层面 版本 深度 鸽王 盛赞 部分 风格 机智 在实践中 报告 议论 真实性 感兴趣 进化史 两极分化 排山倒

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。