智通财经APP获悉,国泰海通发布研报称,7月10日xAI 发布 Grok 4,其碾压的Benchmark和跨级的表现标志着xAI率先跨入了下一代AI。美中不足的是,当前Grok-4的多模态能力仍是明显短板,尤其在图像理解与生成领域虽取得进展但仍需大幅提升,尚未实现人类级的视听感知与交互能力。该团队认为,云服务商和数据中心运营商将直接受益于持续增长的算力需求。具备垂直领域优势和数据壁垒的 AI 解决方案提供商将在竞争中崭露头角。
国泰海通具体观点如下:
深度思考与群体决策协同,重构超人类推理计算范式。Grok-4的推理计算能力已实现断层级突破,其预训练计算量和推理计算能力较前代提升十倍以上,训练规模更达到Grok-2的百倍量级。通过2500个涵盖自然科学、工程等学科的博士级难题测试,Grok-4在人类最终测试(HLE)中取得45%的成绩,两倍于过往最先进的AI Gemini 2.5pro。Grok-4不仅全面超越人类研究生的学术能力,更在GPQA、AIME25等权威基准测试中以满分表现刷新纪录。其中,多智能体协同的Grok-4 Heavy可以同时结合深度思考与群体协作纠错的两种能力,成功在AIME25中取得满分成绩。这种非人类的推理效能已使传统人类设计的测试失去意义,其能力边界正向推动新技术与物理定律的发现迈进,预计将在两年内催生突破性科研成果。
打通现实场景全链闭环,验证跨行业决策执行力。在解决现实场景问题的能力上,Grok-4展现出革命性进步:语音功能实现响应速度翻倍与延迟减半,Eve英音合成技术赋予对话自然磁性与情感流动性,用户体验显著优于竞品;在自动售货机管理测试(Vending-Bench)中,Grok-4以4694.15的净资产生成值碾压第二的Claude Opus 4两倍以上,验证其长期策略执行力;同时开放256K上下文API接口后,已在生物医学领域协助ARC研究所筛选数百万试验数据生成研究假设,在金融决策中成为首选工具,甚至仅用4小时就完成第一人称射击游戏的自主开发,证明其能全流程整合工具链解决跨行业复杂任务。
聚焦像素级视频生成革命,构建人机协同感知新生态。美中不足的是,当前Grok-4的多模态能力仍是明显短板,尤其在图像理解与生成领域虽取得进展但仍需大幅提升,尚未实现人类级的视听感知与交互能力。下一代研发将聚焦视频生成技术突破,通过"输入像素-输出像素"的端到端训练在X平台实现AI视频创作闭环,计划明年推出整合虚幻引擎的3D资源自动生成系统以赋能游戏与影视产业。短期将首先强化专用编程模型并优化图像识别技术,最终目标是构建兼具深度思考、实时响应与多模态协同的超级智能体,彻底重塑人机协作范式。
风险提示:技术竞争加剧,算力供给不足,数据隐私合规风险。