北京时间7月10日中午12点(原定于11点),埃隆·马斯克携xAI团队召开Grok 4全球发布会。尽管开场延迟1小时且被网友调侃“准备仓促”,但Grok 4系列模型公布的多项评测成绩仍引发行业震动。“我们快没有合适的问题来考验AI了”,马斯克在发布会现场坦言。这场迟到一小时的直播,最终以碾压级性能数据震撼全球——Grok 4的“多代理大脑”在人类终极考试中得分44.4%,逼近认知科学定义的“超人类智能”临界点。
多代理架构颠覆AI能力边界
Grok 4系列模型中包含两个战略级产品:
Grok 4:单代理推理引擎,响应速度较前代提升100%,128K上下文窗口支持实时长文档分析;Grok 4 Heavy:革命性四代理并行架构,256K超长上下文+工具原生内化,在“人类最后考试”(HLE)中创下44.4%正确率纪录,碾压谷歌Gemini 2.5 Pro(26.9%)和OpenAI顶级模型(约26%)。实战表现:
在商业模拟测试“Vending-Bench”中,Grok 4 Heavy净资产达4684美元,是Claude 4的两倍,展现超强长周期任务规划能力;数学竞赛AIME 2025满分、物理天文测试GPQA 88-89分,证明其跨学科推理已达博士后水平;实时接入X平台数据流,5秒内完成MLB世界大赛冠军概率分析,精准捕捉市场赔率与真实概率的“Alpha缺口”。xAI公司发布的Grok 3与其他AI大模型部分数据对比
从“数据拟合”到“原理推导”的跃迁
Grok 4的核心突破在于原创推理范式——它不再依赖既有数据,而是基于科学原理自主构建解决方案:
黑洞碰撞模拟演示:运用后牛顿近似理论推导“螺旋-合并-振铃”三阶段物理过程,生成可交互的HTML动画;训练量级指数增长:计算资源达Grok 2的100倍,30万块H100 GPU重构语料库,针对性填补知识漏洞;工具原生内化:代码解释器、搜索引擎在训练阶段即深度融合,ARC-AGI v2测试准确率15.9%(Claude 4仅8%)。为强化生态竞争力,xAI同步推出:
Grok 4 Voice:端到端延迟减半,新增史诗感男声“Sal”与情感英音“Eve”等5种语音;文化通晓引擎:精准识别网络梗图与亚文化梗,成最“懂梗”AI助手;8月编程特化模型:Grok 4 Code将支持VSCode环境内“智能体协作编程”,直面GitHub Copilot竞争。天价订阅费与安全争议
Grok 4定价情况
Grok 4目前只有付费用户才能使用,API定价为每百万tokens输入3美元,输出15美元。Grok 4 Heavy需要订阅300美元/月的SuperGrok Heavy会员才能使用,价格超过了OpenAI最贵的200美元Pro会员月费。
争议焦点直指安全红线:
发布会前夕,Grok 3因生成反犹言论遭土耳其封禁及欧盟调查,暴露内容失控风险;马斯克承诺Grok 4以“追求真相”为准则删除争议提示词,但专家警告“高性能模型若缺乏透明训练机制,可能放大偏见危害”;多国监管机构已要求xAI提交安全架构白皮书,否则将限制Grok 4在医疗、金融等敏感领域的应用。AI将重写人类知识体系
马斯克勾勒出Grok的科幻级蓝图:
2025年底前:与Optimus人形机器人结合,形成“假设-验证-探索”闭环,目标发现新物理定律;知识体系重构工程:扫描全网学术文献,识别矛盾与缺失,构建“零错误”知识图谱;多模态路线图:9月上线图像/视频理解,10月发布视频生成模型,全面对标GPT-5o。图片xAI直播页面
“当AI能指出人类考题错误时,传统教育将彻底重构。”马斯克预言,“Grok 4的使命是成为人类科学进步的加速器——我希望活着见证它发现宇宙新规律。”
结语
Grok 4的发布标志着大模型竞争从参数规模转向底层推理能力。其多代理架构与原理驱动范式,为AI在科研、工程等领域的落地开辟新路径。然而,天价订阅费与内容安全挑战,仍是xAI亟待平衡的双重考验。正如网友所言:“每月300美元买‘超脑’太奢侈,但若真能推动科学革命,这或许是通往未来的最便宜船票。”