当前位置：首页 » 资讯 » 新科技 » 正文

多模态大模型输给三岁宝宝？新评测集BabyVision发布

IP属地中国·北京 编辑：周伟凤凰网科技 时间：2026-01-12 12:33:24

1月12日，近日，红杉中国旗下评测体系xbench与UniPat AI团队联合发布全新多模态理解评测集BabyVision，旨在系统评估大模型在不依赖语言提示下的纯视觉基础能力。评测结果显示，当前主流多模态大模型在该测试中整体表现落后于3岁幼儿水平。
该评测集将视觉能力划分为精细辨别、视觉追踪、空间感知、视觉模式识别四大类别，共涵盖22项子任务、388道题目。测试严格控制语言依赖，确保题目信息无法被完整“文本化”，从而考察模型真正的视觉理解能力。
最终评测结果显示，在BabyVisionFull上，研究团队引入了人类基线，16位至少本科背景的测试者完成全量388题，人类准确率达94.1%。
再看模型，表现最佳的闭源模型Gemini3-Pro-Preview准确率为49.7%，GPT-5.2为34.8%，国内模型Doubao-1.8为30.2%，开源模型Qwen3VL-235B-Thinking为22.2%。多数模型得分明显低于3岁儿童平均水平。
研究团队指出，许多视觉信息本质上是“不可言说”的，一旦被压缩为语言描述就会丢失关键细节，导致模型在需要连续追踪、空间想象、几何归纳等任务中表现显著落后。为此，团队同时推出生成式评测版本BabyVision-Gen，要求模型以画图、标注等视觉方式作答，现阶段得到的结论为：
生成式推理在视觉追踪、精细辨别等VLM易翻车任务上出现“更像人类”的行为（会真的去画轨迹、做标注），但整体仍然缺乏稳定到达完全正确解的能力。
BabyVision的发布为多模态大模型与具身智能的发展提供了可量化、可诊断的评估工具，显示出当前视觉基础能力仍是AI迈向通用智能的关键短板。

标签：模型视觉能力题目团队人类基础全量模态信息空间语言关键无法红杉科技旗下体系 凤凰网 中国集将水平智能 模式识别 背景 测试者 任务 结果显示 理解能力 宝宝平均

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

决战“柴米油盐”，京东“百亿超市”频道上线，计划3年投入200亿元

看完英伟达这赚钱速度，我觉得我手里的砖更烫了。。。

华为WATCH GT Runner 2智能手表海外发布，售价350英镑

英伟达，深夜大跌！

英伟达股价盘中一度跌超5%

纳斯达克综合指数跌超1%

全站最新

决战“柴米油盐”，京东“百亿超市”频道上线，计划3年投入200亿元

看完英伟达这赚钱速度，我觉得我手里的砖更烫了。。。

华为WATCH GT Runner 2智能手表海外发布，售价350英镑

英伟达，深夜大跌！

热门推荐

看差距！看合作！默茨直奔杭州宇树科技

决战“柴米油盐”，京东“百亿超市”频道上线，计划3年投入200亿元

看完英伟达这赚钱速度，我觉得我手里的砖更烫了。。。

AI业务加速放量但收入拐点仍待确认华尔街对赛富时(CRM.US)持谨慎乐观态度

华为WATCH GT Runner 2智能手表海外发布，售价350英镑

英伟达，深夜大跌！

英伟达股价盘中一度跌超5%

纳斯达克综合指数跌超1%

谷歌升级爆款图像工具Nano Banana，周四上线Gemini App和搜索

折痕几乎看不见：荣耀王飞展示Magic V6折叠屏手机内屏

14亿元留不住！庞若鸣弃Meta加盟OpenAI

Anthropic控告中国AI蒸馏，马斯克和整个互联网都笑了

OpenAI首席运营官莱特卡普：优质广告可提升ChatGPT产品体验

中国AI调用量首超美国四款大模型如何实现弯道超车？

工业互联网+智能装备 | 华元诚德书写制造升级新篇章