刚刚,在延迟一个多小时后,马斯克发布了 xAI 的新一代大模型系列——Grok 4 和 Grok 4 Heavy。总结下来,有以下看点:
1.Grok 4 在“人类最后的考试”(HLE)中的表现远超其他 SOTA 模型。具体而言,在使用工具(with tool)的情况下,Grok 4 可以取得 38.6% 的成绩,Grok 4 Heavy 的分数提升至 44.4%,如果再加上测试时阶段的更多思考,这一分数最高为 50.7%。
2.在 GPQA、AIME25、LCB (Jan-May)、HMMT25 和 USAMO25 等 benchmark 中,Grok 4 Heavy 均取得了 SOTA,甚至在 AIME 25 中取得了满分的成绩。
3.在评估模型通用推理能力的超难基准 ARC-AGI 中,Grok 4 依然取得了 SOTA,在 ARC-AGI-2 上达到 15.9%,远超第二名的 8.6%。
4.在 Vending-Bench中,Grok 4 的表现也超过了 Claude Opus 4 和人类,实现了 SOTA。
5.根据 Artificial Analysis 分享的全套基准测试成绩,Grok 4 系列模型已经成为“当前领先的 AI 模型”,获得了 73 分的 SOTA 成绩,超过了 o3 的 70 分、Gemini 2.5 Pro 的 70 分、Claude 4 Opus 的 64 分和 DeepSeek R1 0528 的 68 分。
此外,马斯克团队还展示了 Grok 4 在游戏方面的能力——只需 4 小时就可以制作一款 AI 可独立运行的游戏。
在直播中,马斯克还自信地表示,Grok 4 已经是世界上最好的 AI,可以在今年内实现科学新发现。“如果它今年没有发现新科学技术,我会感觉很意外的。”