当前位置：首页 » 资讯 » 新科技 » 正文

阿里首个万亿参数模型屠榜SOTA，碾压DeepSeek V3.1

IP属地中国·北京 编辑：孙明新智元 时间：2025-09-06 10:04:46

阿里迄今为止，参数最大的模型诞生了！
昨夜，Qwen3-Max-Preview（Instruct）官宣上线，超1万亿参数性能爆表。
直接用成绩说话——
在全球主流权威基准测试中，Qwen3-Max-Preview狂揽非推理模型「C」位，直接碾压Claude-Opus 4（Non-Thinking）、Kimi-K2、DeepSeek-V3.1。
甚至，它把自家Qwen3-235B-A22B-Instruct-2507狂甩身后，堪称「AI卷王本王」。
知识推理评测（SuperGPQA）拿下64.6分
数学推理评测（AIME25）拿下80.6分，断崖式领先
竞争性编程评测（LiveCodeBench V6）拿下57.5分
复杂问题解决和人类偏好对齐评测（Arena-Hard v2）拿下86.1分，优势巨大
被称为「无法被操控的」评测（LiveBench）拿下79.3分
惊艳的性能表现再次证明了，Scaling仍然有效，参数越大模型性能越强。
总的来说，Qwen3-Max-Preview有以下几大亮点：性能更强、知识更广、更擅长对话、任务处理、指令遵循。
新模型可支持100+语言，还针对RAG、工具调用进行优化。
模型一出，全网立即开始了实测。
@karminski-牙医实测中，Qwen3-Max-Preview前端能力明显超越DeepSeek-V3.1。
比如，在一个杯子流体模拟中，Gemini 2.5在倾倒前杯子底部有严重bug，DeepSeek-V3.1杯子中物体倒出的状态（最后有一条线）不对，而Qwen3-Max-Preview比较符合物理常识。
Qwen3-Max-Preview还能完美生成一个骑自行车的鹈鹕SVG、一键直出精美前端网页，一张照片做出像素花园。
目前，模型已正式上线阿里云百炼平台，可通过API直接调用。同时，Qwen Chat也同步上线新模型，支持免费使用。
在百炼平台上，最大支持256k上下文，依token数阶梯计费：
0-32k token：输入0.006元/千token；输出0.024元/千token
32k-128k token：输入0.01元/千token；输出0.04元/千token
128k-252k token：输入0.015元/千token；输出0.06元/千token

标签：模型参数屠榜上线物体杯子性能碾压鹈鹕照片平台权威领先编程问题物理阶梯一键基准断崖 竞争性 人类常识计费全球花园任务网页像素指令状态 云百炼 流体

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

Anthropic撤回禁令，智能眼镜销量持续走高，荣耀新机型搭载超大容量电池

央视关注三大运营商“新老用户不同权”问题，更换套餐阻碍重重

Keychron国行推出Q1 Ultra 8K机械键盘：75%配列，660hr续航

OPPO、vivo万元档影像旗舰排期曝光

史上最大改版！AI版支付宝启动邀测，一个对话框搞定缴费、转账等上万项服务

AI版支付宝（阿宝）诞生的底层逻辑丨商业快评

全站最新

Anthropic撤回禁令，智能眼镜销量持续走高，荣耀新机型搭载超大容量电池

央视关注三大运营商“新老用户不同权”问题，更换套餐阻碍重重

Keychron国行推出Q1 Ultra 8K机械键盘：75%配列，660hr续航

OPPO、vivo万元档影像旗舰排期曝光

热门推荐

Anthropic撤回禁令，智能眼镜销量持续走高，荣耀新机型搭载超大容量电池

央视关注三大运营商“新老用户不同权”问题，更换套餐阻碍重重

Keychron国行推出Q1 Ultra 8K机械键盘：75%配列，660hr续航

OPPO、vivo万元档影像旗舰排期曝光

史上最大改版！AI版支付宝启动邀测，一个对话框搞定缴费、转账等上万项服务

烧不动了，Meta呼吁别再打token消耗战

AI版支付宝（阿宝）诞生的底层逻辑丨商业快评

Citrini：AMD和苹果双双押注闪存替代DRAM，内存成本或直降55倍

高管押上未来十年收益，理想这次动了真格

HBM之后的“存储超级风口”——NAND! AMD(AMD.US)果断出手吞下MEXT 闪存正在主导“AI推理经济学”

利好来了！算力网，万亿级投资周期开启！

刘鹏出任沃尔玛（中国）董事长

当AI Agent开始工作，安全该如何跟上？AgentDoG 1.5开源发布

字节豆包日收入不足百万，Seedance毛利率达70%

上海一知名电商双标？外国人不加班，中国人补工时