当前位置：首页 » 资讯 » 新科技 » 正文

Grok 4号称“全球最强AI”？其实是马斯克的自吹自擂

IP属地中国·北京 编辑：任飞扬雷科技 时间：2025-07-10 22:23:38

「这是世界上最聪明的人工智能。」
尽管比原定发布会时间推迟了近一个小时，但在今天中午（北京时间 9 月 10 日），xAI 创始人马斯克还是发布了新一代大模型 Grok 4。
纸面上，Grok 4 已经全面超越了所有竞争对手，包括 OpenAI o3、Gemini 2.5 Pro 以及 Claude 4 等当前的顶级大模型，不管是传统的基准测试，还是 SAT 考试（美国高考）以及各个学科的 GRE 水平测试。
但比起这些已经有点乏味的传统基准测试，更有意思的是，Grok 4 还跑了被成为「人类最后一场闭卷考试」的 Humanity’s Last Exam（简称 HLE 测试），并超越此前一众模型，实现了最高 44.4% 的准确率。
图/ xAI
马斯克在直播中也指出，Grok 4 比几乎所有学科的所有研究生都更聪明，而至少在学术问题上，也优于所有学科的博士水平，「没有例外。」
这还不是 Grok 4 全部潜力。按照马斯克的说法，Grok 4 基础模型的第七版将在本月完成，然后将进行后训练 RL（强化学习）等，最终也会拥有出色的视频理解能力和工具调用能力。按照路线图，接下来几个月 xAI 还会推出代码模型、多模型智能体以及视频生成模型。
图/ xAI
此外，它们还推出了一项更高等级的订阅服务——SuperGrok Heavy，能够使用「最强模型」Grok 4 Heavy。
不过相比纸面上的无敌，在实际演示过程中，Grok 还是会出现比较低级的错误。更耐人寻味的是，就在 Grok 4 发布前几个小时，xAI 首席科学家 Igor Babuschkin 突然宣布了辞职。
自称“最强大模型”的Grok4，到底聪明在哪？
从技术视角出发，Grok 4 并不只是一次「常规迭代」。在这场 40 多分钟的发布直播中，xAI 试图传达的信息是：这不仅是一个在挑战人类智能的新模型，还是一个应用潜力巨大的 AI。
马斯克将 Grok 4 称为「在所有学科都超过博士水平」，并不完全是营销夸张。在 AIME25、HMMT25、GPQA 等主流基准测试中，Grok 4 将大模型的成绩进一步推向了极值，其中 Grok 4 Heavy 甚至在 AIME25（美国数学竞赛邀请赛）上拿下了满分。
图/ xAI
但更具标志性的是 ARC-AGI 以及 HLE 测试。前者借由 OpenAI o3 的测试引起了业界重视，主要聚焦 AI 的「学习」能力，而非「技能」，Grok 4 在 v1 版本中超过 o3 实现了 66%的准确率，在最新的 v2 版本中更是大幅领先其他大模型，做到了 15.9%的准确率。
至于 HLE 测试，则代表了人类智能的极限，由全球专家联合提出 2500 个专业问题，涉及数学、生物、计算机科学、化学、物理、工程学以及人类学等等不同学科，所以直接被命名为「人类终极考试」。
图/ xAI
在 Grok 4 之前，排名第一的模型 Gemini 2.5 Pro 准确率为 21.6%，其次是 OpenAI o3 20.3%。相比之下，Grok 4 的准确率则提高到了 25.4%，并且在借助工具的完整形态下还能进一步提高到 44.4%。
现场演示中，xAI 就展示了 Grok 4 对 HLE 测试中专家级题目的准确，马斯克认为人类中也只有极少人能够准确。而类似的问题，还有 2499 个。
除此之外，还有一个基于商业场景模拟的 Vending-Bench（自动售货机基准测试），需要 AI 进行管理库存、联系供应商、设定价格等。从测试结果来看， Grok 4 比起 Claude Opus 4 以及真人的运营效率都要高，创造的净值是真人的 5 倍以上。
而在直播中，xAI 还进行了多项演示，包括实时抓取 X 平台上的帖子，整理出各家参与 HLE 测试的时间线，或是找出 xAI 团队中头像最古怪的那一个。既展示了 Grok 4 的能力，也强调了与 X 平台深度整合的优势。
图/ xAI
直播中生成时间最长的一个现场演示，则是 Grok 4 对于 2025 年 MLB 世界大赛冠军的分析预测，亮点主要在于它对工具、数据的使用和分析过程，包括浏览了很多赔率网站的数据来计算。而整个过程，耗时近 4 分半。
此外，Grok 4 还能遍览关键论文和资料来开发一个网页，模拟两个黑洞接触会发生的变化。马斯克还表示，接下来他们还会为 Grok 4 提供真正的专业工具，包括物理学家使用的专业拟真软件，并预测 Grok 4 明年或许就能发现新的物理定律。
这听上去过于夸张，也缺乏实质支撑，但马斯克的 AI 叙事可能并不在于赶超 Google 和 OpenAI，而是要改变目标本身。而且从产品设计角度看，xAI 正在尝试将 Grok 4 变成一个与信息流紧密耦合的 AI 工具，而不是一个只能回答问题的机器人。
图/ xAI
在模型理解维度，Grok 4 还展示了对多模态输入的部分能力。尽管现场没有正式演示图像理解和生成能力，但马斯克强调了其「正在训练」。这意味着 Grok 4 的完整形态仍会是多模态大模型，而非 DeepSeek-R1 这样仅支持文本的推理模型。
换言之，这也意味着 Grok 4 能处理更复杂的感知输入，进一步拓展在现实世界的适用场景——例如人形机器人、自动驾驶、科研建模等。
值得一提的是，马斯克在直播中提及，「Grok 4 Heavy」才是当前最强版本，在推理、编码乃至物理学原理的理解上都胜过通用版模型。但 Heavy 版本目前仍处于内测阶段，且暂未向公众开放。
而在 Grok 4 的发布背后，是 10 倍于 Grok 3 的训练算力，也是 xAI 数月前在美国孟菲斯完成部署的超算集群「Colossus」。按照透露，这套超算塞下了 10 万张英伟达 H100 GPU，并可能率先部署 GB200 计算节点。
一次仓促的直播发布，Grok其实已麻烦缠身
如果只看模型本身，Grok 4 的确展示了不容忽视的实力。尤其在这次直播中，Grok 的语音能力也迎来了升级——不仅能够自然地切换语调，还新增了包括英式发音在内的多个声音角色。xAI 甚至展示了 Grok 可以「唱歌」，并在指令下朗读诗歌。
问题也出现在这里。在交互中，Grok 被要求「唱一首歌」，但却进入了「念诗」状态，用朗读语气念出了歌词。虽然是个小失误，却暴露出语音模型背后对多模态理解尚不稳定的事实——唱歌不只是发音，而是旋律、语调和节奏的协同输出，Grok 显然还没准备好。
图/ xAI
类似的小插曲贯穿整场发布。发布直播原定时间比计划晚了一小时开始，没有任何解释。直播内容虽然丰富，但整体节奏略显仓促，功能展示之间缺乏过渡逻辑。一些演示明显是预先准备好的。这种略显仓促的节奏，与前一天高管的离职消息叠加后，难免让人联想到内部的不稳定。
就在发布当天，xAI 首席科学家 Igor Babuschkin 宣布离职，而在更早前，X 公司 CEO Linda Yaccarino 也辞去了职务，并留下了一句意味深长的话：「现在，随着 X 与 xAI 一起进入新篇章，最好的事情还在后头。」
两人一走，发布会一开，再加上马斯克在直播中多次表达的那种对 AI「太聪明」的担忧，构成了一种微妙的不安感：Grok 4 也许真的很强，但它背后的组织架构、产品节奏，可能并没有准备好迎接它自己造出的「智能飞跃」。
图/ xAI
更现实的问题是，Grok 4 还必须面对全世界最强的两个对手——OpenAI 的 ChatGPT，和 Google 的 Gemini。在技术实力逐渐追平的今天，真正的分水岭往往并不在于模型能不能答对一个考题，而在于平台、生态和用户。
更麻烦的是，Grok 还维持了一种「不一样」的姿态——有性格、敢说话、更自由。这是马斯克为它设计的人设。但也正是这种人设，让 Grok 更容易翻车。就像过去几个月，它因为生成偏激内容而引发舆论。
所以，这一代 Grok 4 确实很强，甚至可能已经比研究生乃至博士更聪明。但技术领先不代表用户信任，也不代表产品成熟，实际体验我们还是要看模型在实际体验中的表现。
马斯克在直播中一度表示，有点担心「AI 的智能远远超过人类」对于我们是好是坏，但又强调「已经某种程度上接受了这样的现实，即使它不是好的，我也至少想活着看到它发生。」

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

我国科研人员在南海北部成功开展“无人集群”科考试验

马斯克发布 Grok 4，处理学术问题达到博士级别

Grok 4强势发布！马斯克：它是在所有学科同时达到博士后水平的唯一存在

微软裁员9000人后，高管称AI节省5亿美元成本

钉钉飞书不要叫醒酣睡的三弟

马斯克旗下xAI发布Grok 4，宣称达博士后水平，重写人类知识库

全站最新

奇瑞风云A9L上市：携手科大讯飞，打造东方“伯牙之音”豪华听享体验

广汽、华为合作的华望被曝已规划两款新车预计明年发布

2025 AI智能体构建实用指南（英文）

蓬安县市场监督管局召开2025年度“个转企”工作专题座谈会

热门推荐

我国科研人员在南海北部成功开展“无人集群”科考试验

马斯克发布 Grok 4，处理学术问题达到博士级别

Grok 4强势发布！马斯克：它是在所有学科同时达到博士后水平的唯一存在

微软裁员9000人后，高管称AI节省5亿美元成本

钉钉飞书不要叫醒酣睡的三弟

马斯克旗下xAI发布Grok 4，宣称达博士后水平，重写人类知识库

贝壳财经年会激辩智能网联汽车路径：在安全边界下重构新生态

字节飞书亮剑AI企服战场

Cluely硅谷爆火的另一面：功能被狂喷，增长渠道成谜？

李斌豁出去了！5米大车预售不到20万，为销量和四季度盈利拼了

比特币创历史新高

中国团队开发新成像技术微米级神经纤维一览无余

蔚来乐道L90预售价27.99万元起“一步到位”，近5.2米“大三排”空间、标配端到端AEB、240升电动前备舱

单品年销冲10亿酒企热衷联名流量渠道商

大厂争当具身智能企业“金主”