当前位置: 首页 » 资讯 » 新科技 » 正文

全部第一!马斯克发布Grok 4,“今年实现科学新发现”

IP属地 中国·北京 编辑:朱天宇 学术头条 时间:2025-07-10 16:27:18

刚刚,在延迟一个多小时后,马斯克发布了 xAI 的新一代大模型系列——Grok 4 和 Grok 4 Heavy。总结下来,有以下看点:

1.Grok 4 在“人类最后的考试”(HLE)中的表现远超其他 SOTA 模型。具体而言,在使用工具(with tool)的情况下,Grok 4 可以取得 38.6% 的成绩,Grok 4 Heavy 的分数提升至 44.4%,如果再加上测试时阶段的更多思考,这一分数最高为 50.7%。

2.在 GPQA、AIME25、LCB (Jan-May)、HMMT25 和 USAMO25 等 benchmark 中,Grok 4 Heavy 均取得了 SOTA,甚至在 AIME 25 中取得了满分的成绩。

3.在评估模型通用推理能力的超难基准 ARC-AGI 中,Grok 4 依然取得了 SOTA,在 ARC-AGI-2 上达到 15.9%,远超第二名的 8.6%。

4.在 Vending-Bench中,Grok 4 的表现也超过了 Claude Opus 4 和人类,实现了 SOTA。

5.根据 Artificial Analysis 分享的全套基准测试成绩,Grok 4 系列模型已经成为“当前领先的 AI 模型”,获得了 73 分的 SOTA 成绩,超过了 o3 的 70 分、Gemini 2.5 Pro 的 70 分、Claude 4 Opus 的 64 分和 DeepSeek R1 0528 的 68 分。

此外,马斯克团队还展示了 Grok 4 在游戏方面的能力——只需 4 小时就可以制作一款 AI 可独立运行的游戏。

在直播中,马斯克还自信地表示,Grok 4 已经是世界上最好的 AI,可以在今年内实现科学新发现。“如果它今年没有发现新科学技术,我会感觉很意外的。”



















免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。