马斯克全新发布Grok3模型，坐拥20万张卡的新王！

IP属地中国·北京 编辑：杨凌霄 Datawhale 时间：2025-02-18 20:30:52

分享
最新发布：xAI，Grok 3
刚刚，马斯克所说的“地表最强的 AI”终于来了。
在 200 多万人的见证下，马斯克的 AI 公司 xAI 正式推出 Grok 3！
“我们非常高兴能够推出 Grok 3，我们认为，在很短的时间内，它的功能比 Grok 2 强大一个数量级。这要归功于一支不可思议的团队的辛勤工作，我很荣幸能与这样一支优秀的团队合作。”马斯克在发布会上说道。
插个题外话，为什么取名 Grok，马斯克是这么说的：
Grok 这个词来自罗伯特·海因莱因的小说《异乡异客》（Stranger in a Strange Land）。这是一个火星词，意思是充分而深刻地理解某事。
Grok 真的以极其夸张的速度进行迭代。。
而这背后，离不开强大的算力与训练方式。
Grok 3 由 Colossus 超级计算机训练完成，这台计算机是在短短八个月内建成的，搭载了 10 万颗英伟达 H100 GPU，提供了超过 2 亿 GPU 小时的计算资源——是 Grok 2 的 10 倍。
同时，在训练方法上，xAI 采取了一些新的策略来优化 Grok 3 的能力，包括合成数据集、自我纠错机制和强化学习。
xAI 最开始搭建这个 10 万 GPU 集群（全球最大的全连接 H100 集群）用了122 天，后续拓展到 20 万集群仅用了 92 天。
再摆一个数据：
Grok 3 的算力消耗是 DeepSeek-V3的 263 倍。
马斯克真的凭着钞能力追到了第一梯队。。
铺垫了这么多，接下来进入正题，我们来聊一聊 Grok 的能力。
根据发布会的顺序：Grok 3、Grok 3 Reasoning、Agents。
一、首先是不带推理能力的 Grok 3。
Grok 3 和 Grok 3 mini 在数学、科学和编程基准测试「AIME'24（一个高水平的数学竞赛）、GPQA（一个研究生水平的科学知识测试）、LCB Oct-Feb（编程能力测试）」上超越了所有主流模型，包括 GPT-4o、Claude 3.5 Sonnet、DeepSeek-V3 和 Gemini-2 Pro 等。
二、接下来是带推理能力的 Grok 3 Reasoning。
令人印象最深刻的是一个模拟航天器的任务，生成一个地球发射、火星着陆以及利用霍曼转移轨道返回地球的动画 3D 代码。
这个问题的难点在于，过程中涉及到了大量数学和物理模型的计算。在此之前，团队从未试过让大模型去计算航天的发射窗口。
Grok 3很快生成了完整可运行的3D动画。以下是 3D 动画的画面，直观展示了任务过程中，太阳、地球、火星和飞船之间的位置关系。
研究者经过检查后表示：Grok-3 给的答案完全正确！
马斯克还说，这就是SpaceX真正的探索轨道。他充满信心地表示，两年内，地球和火星就会被连接在一起。
在跑分上，Grok 3 Reasoning 和 Grok 3 mini Reasoning 在 AIME'24、GPQA 等测试中取得了压倒性的优势，最高分达到 96 分。
在 Chatbot Arena 竞技场，Grok-3 的早期版本（代号“巧克力”）位列第一并成为唯一一个得分超 1400 分的模型。
三、最后是 Agent。
发布会上，马斯克也推出了基于 Grok 3 的智能体 DeepSearch，和 OpenAI 前不久发布的有亿丢丢相似。
但是在效果上，还是很不一样的，xAI 的侧重搜索，OpenAI 的侧重研究。（或者说 De）
DeepSearch 允许用户对互联网和 X 平台进行全面搜索。该模式分析大量信息，并通过快速高效的搜索过程提供详细、合理的答案。
此外，它的信息检索过程对用户更加透明。你可以直接告诉它只使用来自 X 的内容，它会尽量遵守这个要求，因此可控性更强，也更智能。
而 OpenAI 的，则是为那些在金融、科学、政策和工程等领域从事密集知识工作并需要彻底、精确和可靠研究的用户而量身打造的。给它一个提示，ChatGPT 将查找、分析和综合数百个在线资源，以研究分析师的水平创建一份综合报告。
大家不要搞混哈。
根据发布会的介绍来看，Grok 3 好像很牛。
但到底是骡子是马，还得实测来看。
AI 大神 Karpathy 提前拿到了内测资格，带来了 2 小时的深度体验报告。
推理能力
✅ 优点：

成功估算 GPT-2 的训练算力（需从论文中推算未明确列出的数据）：Grok 3 在开启 "思考" 后准确完成，而 GPT-4o 和 o1-pro 均失败。

敢于尝试解决黎曼猜想（类似 DeepSeek-R1），而其他模型会直接放弃。
❌ 不足：

（这个问题上最强的是 DeepSeek-R1 ，曾部分成功解码）。

生成简单井字棋棋盘，思路相当清晰（许多最先进的模型通常会失败！）。但在提高难度之后，生成复杂井字棋棋盘时出现错误（o1-pro 也失败了）。
Agent：DeepSearch
✅ 优点：
‍综合搜索与推理，回答质量接近 Perplexity 的 DeepResearch。
❌ 不足：

拒绝默认引用 X（推特）内容，需手动要求。

偶尔会出现虚构的链接或错误陈述。

要求它创建一份关于 LLM 的主要实验室及其总资金和员工数量估算的报告时，漏掉自家公司 xAI。（这点有点搞笑了，最搞笑的是 OpenAI 的智能体也没有加 xAI，孽缘啊。。）
最后，Karpathy 给出的评价是：Grok-3 + Thinking 表现似乎达到了与 o1 Pro相当的水平，并且略优于 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

芯片大佬身家逼近两百亿，跻身福州第二富豪

墨迹天气战略升级，CEO金犁：希望气象服务的价值从“提供信息”变成“决策输出”

全球最大铁矿石公司更换CEO

突发公告！董事长、副总裁、董事、董秘集体辞职

马斯克对全球宅男下手了！与“AI女友”恋爱，每月只要30美元

新时达被海尔25亿控股后管理层调整：展波任董事长纪德法出局

全站最新

飞向月球不到48小时，美国厕所先撑不住了

鸿蒙智行3月车主用车报告发布，辅助驾驶活跃用户占比超95%

AI圈到底有多少黑话，是为了装逼？

比预告更早：曝“超级小爱”PC客户端正推送给小米笔记本Pro 14

热门推荐

芯片大佬身家逼近两百亿，跻身福州第二富豪

墨迹天气战略升级，CEO金犁：希望气象服务的价值从“提供信息”变成“决策输出”

全球最大铁矿石公司更换CEO

突发公告！董事长、副总裁、董事、董秘集体辞职

马斯克对全球宅男下手了！与“AI女友”恋爱，每月只要30美元

新时达被海尔25亿控股后管理层调整：展波任董事长纪德法出局

业绩下调！雷诺任命临时CEO

突发公告！董事长、副总裁、董事、董秘集体辞职

奥克斯冲刺港股：年营收298亿郑坚江家族色彩浓与董明珠恩怨多年

马斯克，推出AI伴侣

突发公告！董事长、副总裁、董事、董秘集体辞职！

涉性暗示与暴力言论，马斯克旗下公司新角色引争议

“70后”铝业老兵陈亚仁接任福蓉科技董事长，能否带领公司摆脱“增收不增利”困境？

耐普矿机上半年净利预计大跌超七成，公司董事长连续四年年薪稳定百万

隐瞒重要事实！广东云浮农商银行被罚款30万元，时任董事长被警告