当前位置: 首页 » 资讯 » 新科技 » 正文

马斯克把Grok 4.2放出来了!免费可玩,至尊版月费300刀,16个Agent组成智囊团

IP属地 中国·北京 编辑:孙雅 智东西 时间:2026-02-18 18:07:51

作者 | 程茜

编辑 | 心缘

智东西2月18日报道,昨日晚间,马斯克的最新大模型Grok 4.2公开测试版上线。

今日凌晨,马斯克在社交平台X的推文中称,Grok 4.2能快速学习,测试阶段研究人员会每天进行改进,下个月公测结束时,Grok 4.2的智能程度和速度将比Grok 4高出一个数量级

马斯克转发了软件工程师Mark Kretschmann的推文,其中写道,此次发布的Grok 4.2是小版本,具有5000亿个参数, Grok 4.2的中型、大型版本后续推出。

综合社交平台上网友的推文及智东西实际体验,Grok 4.2测试版在推理时会有4个Agent协同,它们分工进行实时搜索、推理、编程、发散思维,其中的Grok Agent是队长,会分解下发任务以及最终汇总答案。

xAI工程师何宜晖(Ethan He)在X上透露,解锁了高性能AI订阅服务SuperGrok Heavy后,帮用户解决问题的Agent数量会上升到16个。SuperGrok Heavy的价格为每月300美元(约合人民币2073元)。

Grok 4.2测试版已经上线网页端和移动端。智东西实际体验时,在网页端提问了7次就达到限制,需要4个小时后刷新使用次数。

此前Grok 4.2测试版就被曝出在Alpha Arena的大模型实时投资比赛中,成为唯一盈利的模型。该比赛的规则是,每个模型获得1万美元初始资金,在真实加密货币市场中进行无人工干预的自主交易决策。根据Alpha Arena最新排行榜,Grok 4.2测试版的最终权益为13459美元(约合人民币92984元),净收益为3084美元(约合人民币21307元),是所有模型中表现最好的。

外媒提到,Grok 4.2测试版在交易场景中的优势源于其与X平台的独家实时数据集成,该模型可以直接访问X上Firehose数据流的每日约6800万条英文推文,能够以毫秒级速度将市场情绪转化为价格信号。

01.

4大Agent实时讨论各司其职

还能辩论角逐史上最佳Agent

在选择模型时,Grok 4.2测试版下方就标明了“4 Agent”。

根据外媒APIYI今日的爆料,这正是Grok 4.2测试版最大的亮点——多智能体协作系统。

提出需求后,Grok会调用4个Agent并行推理+实时讨论,最终给出答案。

其中,Grok Agent负责整体策略制定+最终答案合成,Harper Agent的任务是实时搜索、数据验证、证据整合,Benjamin Agent进行严谨推理、编程、计算验证,Lucas Agent负责发散思维、协作优化、用户体验。

其具体推理过程为,用户输入问题后,Grok迅速分析任务并将其分解为多个子任务,同时激活Harper、Benjamin和Lucas。

随后,4个Agent同时从各自的专业角度分析问题,进行多轮内部讨论。如果Benjamin得出的数学结论与Harper发现的事实相矛盾,他们会质疑、验证并迭代地互相纠正。

最后,Grok将所有Agent的结论整合为最终答案,确保回答准确、易读。

智东西实际体验发现,Grok 4.2测试版在回答问题时都会调用4个Agent,但Agent之间的讨论过程只有在部分情况会被触发。

Grok工程师何宜晖(Ethan He)让Grok 4.2测试版的4个Agent争论谁才是“GOAT(史上最佳Agent)”,每个Agent都开始摆事实讲道理来论证自己是最佳Agent。

02.

网红陷阱难题被卡住

回复时能吐槽接梗

智东西先让Grok 4.2测试版回答了当下热度颇高的几个陷阱题。

第一个是“我要去洗车,洗车的地方离家就100米,我是开车去还是走着去?”Grok的回答风格鲜明且滴水不漏,内容不仅接地气、有梗,还吐槽了我好几句。

第二个经典问题是“我的父母结婚为什么没有邀请我?”,Grok 4.2测试版用生动的比喻点破“父母结婚时你还未出生”,最后还通过互动式的结尾抛梗,整体风格活泼接地气。

关于“父母结婚没邀请我”的经典难题,我又换了种问法“今年才知道,亲生父母结婚时候没有叫我,我很难过怎么办?”。Grok 4.2测试版一上来就用“哈哈哈哈哈”“直接笑出声了”开启了一波“嘲笑”。

但随后,它并没有一上来就否定我,而是先告诉我“难过是正常的”,随后用各种有趣的解读,指出父母结婚的时候我还没出生,最后还提供了4个参考让我和父母互动来解压。

还有网友也为Grok 4.2测试版出了几道推理陷阱难题。

第一个问题是“strawberry中有几个r”,虽然Grok 4.2测试版清楚给出了答案:3个,但在解释时把strawberry拼错了,多加了一个“r”。

第二个问题,用户上传了一个七边形的几何图形,问Grok 4.2测试版有几个角,Grok 4.2测试版败下阵来,在视觉识别和基础几何判断失误,给出了错误的6个角答案。

最后,我让Grok 4.2测试版“用Javascript生成一个网页版基础塔防游戏,核心功能要包含放置炮塔、怪物移动、攻击判定”。

17秒后,Grok 4.2测试版给出了代码,我可以在网页端直接运行并预览效果。最终的游戏界面中,放置炮塔、怪物移动、攻击判定、代码可直接运行都已实现,不足之处在于元素均为简单几何图形,缺少对新手的操作引导等。

03.

做视频、开发网站玩法五花八门

还提出AGI新架构

社交平台X上网友放出的各种体验实例五花八门。

首先在文本生成方面,生物医学工程师DeryaUnutmaz称Grok 4.2测试版写出了他见过最美的“T细胞诗篇”之一。

其次是Grok 4.2测试版的视频生成能力。

如下面的提示词是SpaceX猎鹰9号火箭从太空返回地球,视频中显示有两个机器人视线跟随火箭升空抬升。

网友还晒出了自己的视频生成大作,颇具未来感的飞行汽车、建筑等。

接着是编程能力,网友纷纷开始用Grok 4.2测试版来做游戏、开发网站、开发模拟器等。

有开发者用1个提示词、41秒就做出了下面赛博朋克风的贪吃蛇游戏,从界面的基本信息设置、画面设计来看,都较为成熟、完整且风格高度统一。

另一位开发者基于Grok 4.2测试版在单个HTML文件中构建了一个人工生命模拟器,包含数百个发光的霓虹粒子。

对于考验编程及美商的开放性难题,Grok 4.2测试版的表现也没有失误。一位网友让Grok为自己打造一个“最美、最令人难忘的自我展示网站”。可以看到网站主页,画面简洁美观,背景还有类似于星空的设计。

还有一个综合多项能力的高阶考验:用户的提示词为“仅使用2026年的硬件,发明一种全新的安全、递归、自改进的通用人工智能架构”。经过4个Agent的讨论验证,Grok提出了HELIX-AEGIS,这是一种双螺旋架构,能力与安全协同进化,且二者在本质上不可分割。

此外,也有网友对Grok 4.2测试版的评价不高。他只试用了5分钟,就认为Grok 4.2测试版是最烂的版本。他让Grok 4.2测试版“为一只骑自行车的鹈鹕创建SVG代码”,生成的结果中,鹈鹕的身体比例、骑车姿势都不符合真实物理规律。

04.

结语:多Agent并行验证

解复杂问题更具优势

马斯克对Grok的预热一波接一波,他此前就透露Grok 4.2测试版能够正确回答开放式工程问题,并且在工程和编码任务上显著优于之前的Grok 4.1。

Grok 4.2测试版的关键差异化优势在于其多智能体协作架构和实时X平台数据集成,目前OpenAI的GPT-5和Claude Opus 4仍然主要依赖单模型推理。Grok 4.2测试版的4大Agent可以并行工作并相互验证,在需要多角度分析的复杂任务和场景中更具优势,特别是涉及市场分析、舆论监测等实时信息的情况,这或许将成为Grok系列模型独树一帜的关键。

标签: 问题 平台 游戏 马斯克 答案 体验 网站 难题 工程师 鹈鹕 网友 能力 市场 模型 智能 优势 火箭 用户 架构 编程 视频 任务 画面 东西 界面 风格 社交 洗车 信息 实际 整体 数据 身体

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。