当前位置：首页 » 资讯 » 新科技 » 正文

全部第一！马斯克发布Grok 4，“今年实现科学新发现”

IP属地中国·北京 编辑：朱天宇学术头条 时间：2025-07-10 16:27:18

刚刚，在延迟一个多小时后，马斯克发布了 xAI 的新一代大模型系列——Grok 4 和 Grok 4 Heavy。总结下来，有以下看点：
1.Grok 4 在“人类最后的考试”（HLE）中的表现远超其他 SOTA 模型。具体而言，在使用工具（with tool）的情况下，Grok 4 可以取得 38.6% 的成绩，Grok 4 Heavy 的分数提升至 44.4%，如果再加上测试时阶段的更多思考，这一分数最高为 50.7%。
2.在 GPQA、AIME25、LCB (Jan-May)、HMMT25 和 USAMO25 等 benchmark 中，Grok 4 Heavy 均取得了 SOTA，甚至在 AIME 25 中取得了满分的成绩。
3.在评估模型通用推理能力的超难基准 ARC-AGI 中，Grok 4 依然取得了 SOTA，在 ARC-AGI-2 上达到 15.9%，远超第二名的 8.6%。
4.在 Vending-Bench中，Grok 4 的表现也超过了 Claude Opus 4 和人类，实现了 SOTA。
5.根据 Artificial Analysis 分享的全套基准测试成绩，Grok 4 系列模型已经成为“当前领先的 AI 模型”，获得了 73 分的 SOTA 成绩，超过了 o3 的 70 分、Gemini 2.5 Pro 的 70 分、Claude 4 Opus 的 64 分和 DeepSeek R1 0528 的 68 分。
此外，马斯克团队还展示了 Grok 4 在游戏方面的能力——只需 4 小时就可以制作一款 AI 可独立运行的游戏。
在直播中，马斯克还自信地表示，Grok 4 已经是世界上最好的 AI，可以在今年内实现科学新发现。“如果它今年没有发现新科学技术，我会感觉很意外的。”

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

2025福布斯中国最具影响力华人精英TOP100评选公布，OceanBaseCEO杨冰入选

微信员工回应为何更新说明只写「修复一些已知问题」

上海企业家发起启光基金会，5位青年数学家成为首批“启光学者”

分子生物学家姚孟肇逝世，享年76岁

理想回应召回：MEGA起火事件尚未形成最终技术结论，内部调查显示同批次冷却液防腐性能不足

中国科学院学者取得微创植入式柔性深脑区脑机接口研究进展

全站最新

2025福布斯中国最具影响力华人精英TOP100评选公布，OceanBaseCEO杨冰入选

微信员工回应为何更新说明只写「修复一些已知问题」

上海企业家发起启光基金会，5位青年数学家成为首批“启光学者”

分子生物学家姚孟肇逝世，享年76岁

热门推荐

比亚迪公布车辆和充电桩修复电池包专利

光大银行前三季度营收、净利“双降”，计划于近期召开董事会审议中期利润分配方案

宝付网络科技被罚377万，涉违反商户管理规定等

浦发银行被罚1270万，涉互联网贷款、代销等业务管理不审慎

平安银行被罚1880万，涉互联网贷款、代销等业务管理不审慎

中国民生银行被罚5865万，责任人共被罚36万

兴银理财被罚100万，涉违反金融统计相关规定

珠峰财险前三季度揽收保费4.97亿元、微利169万元，西藏分公司遭监管警示

中银三星人寿前三季度揽收保费293.16亿、净利润6.94亿，年内发行30亿永续债

宝付网络科技被罚377万，涉违反商户管理规定等

大都会人寿前三季度揽收保费323.37亿，实现净利润2.35亿

中国民生银行被罚5865万，责任人共被罚36万

兴银理财被罚100万，涉违反金融统计相关规定

申万宏源前三季度净利润80亿同比翻倍，资管及基金管理业务手续费净收入下滑

2025福布斯中国最具影响力华人精英TOP100评选公布，OceanBaseCEO杨冰入选