xAI发布“全球最强AI模型”
就在今天,马斯克旗下的xAI 公司终于揭开了新一代大模型Grok 4的神秘面纱。
此次发布的Grok 4系列包含两个版本:Grok 4和Grok 4 Heavy。
xAI官方宣称,Grok 4是目前“最新、最强大的旗舰模型”,甚至直接称其为“全球最强AI模型”。
图源:X
Grok 4的发布,标志着xAI在人工智能领域的又一次重大突破。
根据发布会介绍,Grok 4在xAI自建的Colossus超级计算机上进行了训练,这台超级计算机拥有20万块GPU,是全球最大的AI超算之一。
如此庞大的算力投入,使得Grok 4在推理能力上实现了质的飞跃。
马斯克表示,Grok 4的推理能力相较于前代提升了10倍,训练量更是达到了Grok 2的100倍。
图源:发布会直播截图
在性能表现上,Grok 4几乎刷新了所有主流基准测试的记录。在被誉为“人类最后考试”的HLE(Humanity's Last Exam)基准测试中,Grok 4在纯自主推理的情况下,准确率达到了38.6%;
而其进阶版本Grok 4 Heavy更是借助多智能体协作,将分数提升至44.4%,远超谷歌的Gemini 2.5 Pro(26.9%)和OpenAI的o3模型(20.32%)。
图源:datalearner
此外,在AIME 2025美国数学邀请赛中,Grok 4 Heavy更是取得了满分的惊人成绩,展现了其在数学推理领域的卓越能力。
Grok 4的强大不仅体现在推理能力上,它还具备出色的多模态功能,支持文本、图像等多种输入形式,上下文窗口高达256K tokens,能够处理更复杂的交互任务。
同时,Grok 4还配备了实时联网搜索功能(DeepSearch),可以从X平台提取最新数据,确保信息的时效性和准确性。
这一功能使得Grok 4在理解互联网文化、梗图和俚语方面表现出色,有望成为最“接地气”的AI助手。
比如,马斯克在现场演示,让Gork4在X平台找出“xAI员工最古怪的头像”,Grok4在短时间内很快给出了结果,从结果来看它好像真的能完全理解“古怪”的含义并且可以分析搜索出来的结果。
图源:发布会直播截图
在语音交互方面,这一次的Grok 4也进行了显著优化。其语音模式的延迟率减半,新增了多种音色,包括深沉的“Sal”和优美的英伦女声“Eve”;
能够更自然地与用户进行对话,甚至即兴创作歌剧,展现了极高的情感表达能力。
此外,在本次发布会上,xAI团队还展示了Grok 4在实际应用场景中的强大能力。
例如,在商业模拟场景“Vending-Bench”测试中,Grok 4能够像人类一样经营自动售货机业务,完成库存管理、供应商谈判、定价策略等复杂任务,其平均净资产达到了4684.15美元,是第二名Claude 4的两倍。
图源:发布会直播截图
在定价方面,Grok 4采取了分层订阅策略。
普通版Grok 4需要订阅SuperGrok服务,月费为30美元,而功能更强大的Grok 4 Heavy则需要订阅SuperGrok Heavy服务,月费高达300美元。
API的定价为每百万tokens输入3美元,输出15美元。尽管价格不菲,但xAI表示,Grok 4的性价比依然具有竞争力。
值得注意的是,在Grok 4发布会前夕,xAI的首席科学家Igor Babuschkin突然宣布辞职,为此次发布蒙上了一层阴影。
马斯克在发布会上强调,AI的安全性和价值观至关重要,xAI将致力于打造一个“善良、追求真理”的AI。
他还表示,Grok 4的诞生标志着“智能大爆炸”时代的开启,未来AI将在科学发现、技术创新等领域发挥更大的作用。
马斯克甚至预言,Grok将在未来一两年内发现新的物理学原理,推动人类文明迈向新的高度。
马斯克再次震惊全球
简单的功能介绍没办法展现Grok4给全球科技爱好者带来的震撼。
下面就让我们一起通过官方演示来看看Grok4具体表现如何。
首先,前面提到的Gork4在商业智能领域的能力不再赘述细节,单凭其超越人类平均水平的商业管理能力就已足够展现其出色的战略规划和执行能力。
而此次发布会的重中之重,是马斯克为其附上的“学者”标签。用马斯克的话来说,“从学术角度看,Grok 4 在所有学科上都是博士水平,甚至比绝大多数(本学科的)博士还要强。”
在发布会现场,研究人员向Grok 4提出了一个复杂的物理学问题:模拟两个黑洞碰撞并产生引力波的过程。
Grok 4不仅迅速理解了问题,还主动调用网络搜索、文献检索和代码运行等工具,最终生成了一段可以在网页上直接运行的HTML动画代码。
动画精确地展示了黑洞从相互旋进、合并到铃振阶段的完整过程,并使用了后牛顿近似法进行计算,展现了其对复杂物理概念的深刻理解和可视化能力。
图源:发布会直播
此外,Grok 4还展示了其在预测分析领域的潜力。
研究人员要求Grok 4预测2025年美国职业棒球大联盟(MLB)各队的夺冠赔率。
Grok 4不仅浏览了Polymarket平台上的赔率数据,还结合了FanGraphs的统计数据,计算出洛杉矶道奇队的夺冠概率为21.6%,并指出了市场赔率与实际概率之间的差异,成功找到了投注的“Alpha”和“Edge”。
这一表现让现场观众惊呼不已,也让人们对AI在金融投资领域的应用前景充满期待。
图源:发布会直播截图
然而,Grok 4的惊艳表现背后,也隐藏着不小的争议与挑战。
首先,Grok系列模型一直以其“言论自由”和宽松审查的策略著称,但这也导致了其旧版本在近期频繁输出种族主义、反犹主义等极端言论,引发了巨大的舆论风波。
在发布会前夕,Grok甚至被土耳其政府封禁,原因是其侮辱了总统埃尔多安;波兰政府也向欧盟举报了xAI,认为其模型存在仇恨言论问题。
面对争议,马斯克在发布会上表示,xAI已经对Grok的系统提示词进行了调整,删除了此前鼓励“政治不正确表述”的内容,并加强了对仇恨言论的过滤。
然而,他也强调,Grok依然会保持其“追求真理”的核心价值观,不会因为外界压力而放弃对真相的探索。
xAI的野心彻底暴露
在发布会的尾声,马斯克和他的团队毫不掩饰地公布了接下来几个月的密集产品路线图:
8月,专为开发者打造的Grok 4 Code将正式上线,旨在挑战GitHub Copilot和GPT-4 Code Interpreter在编程领域的霸主地位;
9月,多模态智能体(Multimodal Agent)将登场,进一步拓展AI在复杂现实任务中的边界;
10月,xAI还将推出视频生成模型,直接对标OpenAI的Sora和Runway等前沿产品。
这一连串的动作表明,xAI正试图构建一个覆盖文本、图像、视频、代码和智能体的全方位AI生态系统,野心之大,可见一斑。
马斯克在发布会上反复强调,现实才是AI最终的推理测试,而xAI的目标,就是打造能够与现实世界深度互动的AI。
这种对AGI(通用人工智能)的激进追求,与OpenAI、Anthropic等竞争对手形成了鲜明对比。
后者在模型发布和迭代上显得更为谨慎,更注重安全性和可控性,而xAI则选择了“快速推进、边做边调”的策略,试图以速度和规模抢占先机。
放眼整个AI战场,竞争已趋白热化。
OpenAI正紧锣密鼓地筹备GPT-5的发布,试图再次定义行业标杆;
谷歌的Gemini系列也在不断进化,凭借其在搜索和云计算领域的深厚积累,试图将AI能力渗透到每一个角落;
Anthropic的Claude系列则以安全性和可控性著称,赢得了不少企业用户的青睐。
与此同时,meta也在大手笔组建顶级AI实验室,近期在OpenAI、特斯拉等多个企业内部挖人,试图迎头赶上。
在这样的背景下,Grok 4的发布,不仅是xAI的独角戏,更是新一轮AI军备竞赛的冲锋号。
马斯克能否凭借Grok 4在这场混战中脱颖而出,将决定xAI能否在巨头环伺的AI版图中占据一席之地。
作者 | 刘峰