当前位置：首页 » 资讯 » 新科技 » 正文

元石科技正式发布问小白5，性能直追GPT-5

IP属地中国·北京 编辑：柳晴雪机器之心Pro 时间：2025-08-28 18:21:48

机器之心发布
机器之心编辑部
本月初，AI 圈翘首以盼的 GPT-5 终于问世，在数学、实际编程、多模态理解、推理等多个领域实现了新的 SOTA。
与此同时，国内厂商也在全力加速，持续迭代自研模型与技术栈，力求在全球竞逐中不落下风。
今日，国产 AI 厂商元石科技重磅推出「All in One」旗舰模型 —— 问小白 5，成为其迄今为止最智能、最快捷、最实用的 AI 系统。尤其值得强调的是：问小白 5 的各项基准测试榜单成绩最接近 GPT-5，这使其成为当前国产大模型中最具代表性的对标者。
而得益于全方位增强的模型能力，问小白 5 在智能水平上实现了重大突破，可以在生活、学习、金融、科技等领域提供更实用、更专业的解答。
同时，作为一个统一的系统（All in One），问小白 5 能够智能识别何时快速响应，何时需要更长时间的思考。这种「动态思维模式」让用户无需在不同模式之间切换，既能满足日常的高效问答，又能在专业任务中提供专家级的回答。
目前，问小白 5 已经面向所有用户开放，访问官网 wenxiaobai.com 或更新 App 至最新版即可体验。

性能直追 GPT-5
国产大模型新标杆来了
大模型是否真正具备了「顶级实力」，还要看它们在权威测试中的 PK 成绩。
AA-Index是一个综合性的 AI 基准评估指标，通过整合数学推理、科学问答、编码与语言理解等多个维度，为全世界共 228 款大模型提供了统一、全面、有信度的智能能力比较参考，便于科学、公正地评估模型整体表现。
结果显示，问小白 5 以64.7 分的 AA-Index 指标超过 Gemini2.5 Pro ，并成为智能水平最接近 GPT-5 的国产 AI 大模型

另外，在STEM、前沿知识、代码编程、指令遵循等细分领域，问小白 5 的表现尤为亮眼，从而在复杂推理和结构化等多样化任务中展现出了更强的稳定性。
STEM 能力：深度推理与专业知识融合
STEM涵盖了全美数学竞赛（AIME）与博士级学科知识推理（GPQA），是顶尖模型（以 GPT-5 为代表）衡量其复杂逻辑推理能力核心突破的关键评测。
问小白 5 以86 分的 STEM 成绩接近全球领先的 GPT-5。

前沿知识能力：人类终极学术挑战
前沿知识能力旨在衡量模型能否在人类知识边界进行探索、辅助科学发现，这是以 GPT-5 为代表的顶尖模型致力于实现的核心价值。而「人类终极学术挑战」（HLE）便是评估这一能力的权威基准。
问小白 5 在代表前沿知识能力（HLE）的基准测试中，进一步将国产大模型的智能水平提升到17.7 分，展现了其在深度理解和真实推理能力上的优异能力，仅次于最强的 GPT-5。

代码编程能力：新基准更专业更显实力
LiveCodeBench作为一个高难度、抗数据污染的基准，旨在真实评测模型「思考 - 编码 - 验证」的端到端解题能力，并强调最终代码的稳健性与可执行性。
在此项评测中，问小白 5 以79.2分的成绩脱颖而出。

指令遵循：精准遵循未知指令的泛化能力
IFBench（Instruction Following Benchmark）通过评测模型对新颖、未知指令的泛化能力，直击大模型指令过拟合的核心痛点，而这正是 AI 实用性的关键体现。行业标杆 GPT-5 在此能力上表现卓越。
在 IFBench 的严苛测试中，问小白 5 以58.1 分的成绩，不仅大幅领先国内其他顶尖模型，更在全球范围内展现出强大的竞争力。这一分数直观地证明了其卓越的指令遵循泛化能力，是其能够精准可靠、值得信赖的核心体现。

对于广大用户而言，问小白 5 的出现无疑提供了又一个更强大的国产大模型选项。
国产全能 AI 搭子
陪写、陪聊、陪干活
随着模型能力的持续提升，问小白 5 展现出了面向实际应用场景的广泛适用性以及处理现实问题的更强实用性。在包括学科知识、写作、办公、角色扮演、编程、分析规划和医疗健康在内的各个领域，它都能轻松拿捏。
从学术尖端到生活日常，问小白 5 展现了 GPT-5 级全能实力，且在中文环境下，问小白 5 更懂用户！
职场助手
问小白 5 像是一位周到的专业伙伴，擅长从繁杂的日常任务中快速识别重点，并在多线程任务管理、会议材料整理、跨部门沟通支持与项目进度跟踪等场景中，成为用户值得信赖的得力助手。比如入职体检报告的审查：
prompt：这是即将入职员工的入职体检报告，请协助我理解并总结出体检结果，是否符合国家规定的用人健康需求。

运营分析
问小白 5 对海量数据的深度挖掘与多维度解读能力，使其能够在行为解读、活动效果复盘、渠道 ROI 优化与市场趋势研判等场景中，成为用户敏锐且高效的数据决策伙伴。
有了问小白 5，工作中的各种难题将迎刃而解。比如在订阅制产品中的收入预测与用户留存分析：
prompt：我是一个出海 AI 产品，现有 8,000 名月度订阅会员，会员费 30 美元 / 月，平均每月流失率为 7%。若通过三种策略（改进注册体验、推出季度会员折扣、优化流失用户推送通知）将流失率降低至 6% 或 5%，模拟未来 12 个月内对月度总收入（MRR）的影响。

角色扮演
角色扮演是 AI 时代专属的私密游戏，在大模型的帮助下可以一秒切换人生剧本！
有了问小白 5，无论是霸道总裁、历史人物、都市游戏，还是奇幻精灵，它都能精准代入。并且，我们还可以和「小白」来一场沉浸式恋爱游戏。
prompt：小白，请您扮演活泼外向的女生，渴望甜蜜恋爱。通过日常对话积累好感度（初始 1 / 上限 600），随好感升级关系：陌生人→好友→恋人→夫妻。用口语化中文回复。触发随机剧情时标注 "触发"，添加场景描写与内心戏，用 emoji 表达情绪。现在往我们开始吧。

学科知识
在学术研究和知识探索场景中，问小白 5 宛如一位博学而高效的学术搭档，善于将庞杂信息精准解析，并转化为层次分明、逻辑严谨的知识体系，为科研工作者和学习者提供更高效的支持。
因此，在教学辅助、学术研究、技术解读与跨领域学习等场景中，问小白 5 可以充分发挥智能助手的作用。
prompt：这是问小白技术团队荣获 ACL 2025 TOP26 杰出论文奖的论文，请帮我总结识别文献中的理论框架和模型，分析它们如何支持货挑战现有知识体系。

最后，问小白 5 的 API 合作通道即将开启，欢迎邮件联系：wenxiaobai@ai123.ink

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

“上海哪家小程序开发公司靠谱”16年的项目经理告诉您选外包商

融智聚力丨中建材信息亮相华为中国合作伙伴大会2026 获“杰出总经销商奖”

林俊旸从阿里离职后首发长文：复盘千问路线受阻，断言AI演进全面转向智能体

前腾讯科学家打造工业AI细分龙头，思谋科技冲刺IPO，3年累亏22亿

Meta大办“AI培训周”，鼓励员工爱用、多用智能体办公

CNFinBench公布大语言模型综合得分：中国平安金融大模型荣登第一名

全站最新

“上海哪家小程序开发公司靠谱”16年的项目经理告诉您选外包商

融智聚力丨中建材信息亮相华为中国合作伙伴大会2026 获“杰出总经销商奖”

林俊旸从阿里离职后首发长文：复盘千问路线受阻，断言AI演进全面转向智能体

前腾讯科学家打造工业AI细分龙头，思谋科技冲刺IPO，3年累亏22亿

热门推荐

“上海哪家小程序开发公司靠谱”16年的项目经理告诉您选外包商

融智聚力丨中建材信息亮相华为中国合作伙伴大会2026 获“杰出总经销商奖”

林俊旸从阿里离职后首发长文：复盘千问路线受阻，断言AI演进全面转向智能体

前腾讯科学家打造工业AI细分龙头，思谋科技冲刺IPO，3年累亏22亿

Meta大办“AI培训周”，鼓励员工爱用、多用智能体办公

CNFinBench公布大语言模型综合得分：中国平安金融大模型荣登第一名

AI流量增速超人类8倍！流量“倒挂”前夜：AI智能体正掏空互联网的旧金矿

落地超40个场景化应用，京东AI采购管家为4万企业装上“智慧大脑”

从爆款到弃子：OpenAI为何砍掉视频生成应用Sora？

为全球科技繁荣发展贡献中国方案

定位导航定时领域十大前沿问题正式发布『航天视窗』（1545）

当AI大幅度降低参与门槛，这届上海青少年科创大赛更看重“提出好问题”

Meta开源全新AI模型TRIBE v2，精准预测人类大脑多模态反应

入驻美国 TikTok，娱乐直播公会开启全球化布局第一站

国家互联网信息办公室开展2025年国家信息化发展情况网络问卷调查