当前位置：首页 » 资讯 » 新科技 » 正文

通义Qwen3非思考模型上新多项能力达到Gemini2.5、GPT-4o水平

IP属地中国·北京 编辑：胡颖凤凰网科技 时间：2025-07-30 08:08:13

7月30日，阿里巴巴通义千问团队宣布推出Qwen3系列模型的最新版本 ——Qwen3-30B-A3B-Instruct-2507。这一非思考模式（non-thinking mode）的开源模型仅需激活3B参数，即可在多项核心能力上达到与Gemini 2.5-Flash（non-thinking）、GPT-4o等闭源模型相当的性能水平，同时在多语言覆盖、用户偏好对齐和长文本处理等领域实现突破性提升。目前，该模型已在魔搭社区（ModelScope）和HuggingFace平台全面开源。
作为Qwen3-30B-A3B模型中的新版本，Qwen3-30B-A3B-Instruct-2507延续了通义千问团队在架构创新上的优势，在大幅降低计算成本的同时，实现了与千亿级闭源模型的性能对标。官方数据显示，该模型在数学推理（AIME25测试得分61.3）、代码生成（LiveCodeBenchv6得分43.2）、研究生级物理和天文学问题（GPQA测试得分70.4）、人类偏好对齐（Arena-Hard v2得分69）、函数调用能力（BFCL-v3得分65.1）等关键基准测试中表现突出，部分指标甚至超越GPT-4o等。
在通用能力层面，模型全面强化了指令遵循、逻辑推理、数学、科学、编程及工具使用等多方面。在多语言的长尾知识覆盖方面，模型进步显著；在主观和开放任务中，新模型与进一步紧密对齐了用户偏好，可以生成更高质量的文本，为用户提供更有帮助的回答；长文本理解能力提升至256K。
通义千问是阿里巴巴达摩院自主研发的大语言模型系列，自2023年发布以来，已开源超200个模型，全球下载量突破3亿次，衍生模型数超10万个。

标签：模型能力通义水平性能文本全面物理 天文学 科学数学语言开源领域基准部分 突破性 关键指标 文本处理 团队编程用户 逻辑推理 架构 研究生 问题指令层面任务长尾

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

小红书计划本月底前秘密在港递表，估值曾达310亿美元

在线观看人数暴涨55倍，世界杯直播创造小红书直播新纪录

花旗大幅上修其AI业务的财务预测 AMD盘前涨超4%

擎云AI工作手机解决方案精细销售管理，驱动业务增长

5月新能源皮卡销量同比增长20%，比亚迪居首

进球、切片、全网爆：如何打造一座跑赢热搜的赛事“AI短视频工厂”？

全站最新

小红书计划本月底前秘密在港递表，估值曾达310亿美元

在线观看人数暴涨55倍，世界杯直播创造小红书直播新纪录

花旗大幅上修其AI业务的财务预测 AMD盘前涨超4%

擎云AI工作手机解决方案精细销售管理，驱动业务增长

热门推荐

小红书计划本月底前秘密在港递表，估值曾达310亿美元

在线观看人数暴涨55倍，世界杯直播创造小红书直播新纪录

高管花式退场，阿里AI不需要“一号位”

雨果奖作家新书惹争议！主动承认AI写作比重竟占一半

银行业百万美元年薪争夺首席AI官 IBM调查显示高管设置率一年内激增50%

荣耀X70 Pro Max发布：售价1999元起搭载8560mAh大电池

全渠道销量夺冠！千问AI眼镜引爆智能穿戴新风口

魅族Watch M1智能蓝牙手表发布：售价299元

微信支付发布AI工具箱2.0：不仅能听懂 9 国语言，Token消耗还省一半！

AI合规再升级：Anthropic拟对全量用户实施身份认证

OpenAI豪掷1. 5 亿美元：构建全球合作伙伴网络，深耕企业AI落地

机构：千问AI眼镜1-5月全国销量第一

阿里巴巴达摩院退出旗下科技公司

花旗大幅上修其AI业务的财务预测 AMD盘前涨超4%

擎云AI工作手机解决方案精细销售管理，驱动业务增长

首页

资讯

财经号

智能车

专题

电商资讯

人物资讯

滚动资讯

首页

新科技

新金融

新零售

智能车

房地产

科技探索

人物资讯

网络游戏

人工智能

专题

通义Qwen3非思考模型上新多项能力达到Gemini2.5、GPT-4o水平

首页

资讯

财经号

智能车

专题

电商资讯

人物资讯

滚动资讯

通义Qwen3非思考模型上新 多项能力达到Gemini2.5、GPT-4o水平

同类资讯

通义Qwen3非思考模型上新多项能力达到Gemini2.5、GPT-4o水平