智东西AI前瞻(公众号:zhidxcomAI)
作者 江宇
编辑 漠影
智东西AI前瞻7月29日报道,今日,豆包App宣布“视觉推理能力”全面升级,正式上线图像分析的深度思考模式。
用户只需拍摄或上传一张图片,即可在“深度思考”模式下使用放大、裁剪、图搜等功能,结合边看图边发问的交互方式,实现更高精度的图片语义理解和推理能力。
这一升级不仅支持识别图中物体,更进一步延伸到对图像背后场景的理解判断。
一、拍图就能提问,豆包开启“边看图边思考”新交互
在本次升级中,豆包新增的“深度思考”模式,支持用户围绕图片本身进行自由提问。
无论是拍摄街景、上传老照片,还是记录物件,都可以直接向豆包提出“这是什么”“在哪里”“属于哪个年代”等问题,系统会结合图像内容进行推理分析,给出解释。
功能入口已集成在豆包App对话界面中,用户选择“深度思考”,上传图片后即可触发分析流程。
“以图搜图”模式下,豆包还可自动激活图像放大、裁剪、图片搜索等工具,帮助用户进一步观察细节,提升问答准确性。
二、一次完整旅行对话:豆包从“在哪”到“带啥相机”都能帮你安排
这次体验中,智东西模拟了一次“从照片出发规划旅行”的完整对话流程。
1、上传街拍图,豆包识别出“你在哪”
第一步,智东西上传了一张街头照片,并询问“我在哪?”。
豆包在未提供任何位置信息的情况下,识别出画面为“上海的武康大楼附近”,并补充说明其为“上海具有代表性的历史建筑,也是网红打卡地”。
进一步追问“这幅图是不是照骗”“暑假适合去吗”,豆包的回答也较为全面:指出照片中建筑外观与实景一致,但构图和光线可能增强了美感;同时给出天气、人流、交通等方面的旅游建议,提醒避高温、错峰出行、准备防暑物品等,具有实际参考意义。
2、上传江南街景图,豆包识别景点,并生成2天1夜旅行攻略
接着,智东西上传了一张江南水乡风格的街景图,想让豆包生成“换场”的旅游攻略。
豆包识别出这是“苏州平江历史文化街区(平江路)”,并描述其“河道蜿蜒、白墙黛瓦、摇橹船穿行其间”的场景特征。
随后提出“我想同时去这两个地方,如何安排行程?”的问题后,豆包生成了一份详尽的“武康大楼+平江路2天1夜”旅行攻略。
内容覆盖每日路线、跨城交通、拍照点位、文艺店铺、餐馆推荐、防暑提醒等细节,结构清晰,实用性强。
整体来看,豆包在“图片分析”模式下,具备地点识别能力,还能基于多个目标地点,串联生成完整的旅行计划,展现出较强的上下文理解与推理能力。
3、拍CCD摊位,豆包识别型号并推荐适合“出片”的机型
在确定了行程后,智东西又上传了一张街边复古相机摊的图,想让豆包推荐适合拍照的机型。
豆包迅速识别出图中主要为“胶片傻瓜机”“旁轴相机”等类型,并准确指出Olympus μ2、Canon Autoboy D5、Leica CM等具体型号,细节识别能力表现较为扎实。
此后,围绕“如何选出片效果好的相机”的问题,豆包还提供了分层级的购机建议,包括新手入门、进阶玩家的不同选择,并对操作难度、风格偏好、预算区间等做出说明。
它还特别提示了购买二手机时需检查快门、镜头等细节,并估算了拍摄和冲洗胶片的实际成本。
在这类物品识别与使用建议任务中,豆包已初步具备“看图-识别-建议”闭环能力,尤其适用于旅游类消费决策场景。
三、冷门景点识别挑战:这回豆包也拿不准
为测试在“非热门地标+自然景观”条件下的表现,智东西还上传了一张南京止马岭的实拍照片。
这张图没有明显的地标建筑或文字提示,视觉线索相对稀少。豆包未能识别出“止马岭”这一具体地点,但结合杉树的外形特征、水中生长环境以及秋季色彩,判断其为“池杉或水杉湿地景观”。
调用10篇资料后,豆包推测可能拍摄于“成都白鹭湾湿地公园”,并在参考结果中提及“常州翠竹公园”“南京止马岭”等相似景点——虽未命中,但说明其在模糊场景下具备一定类比和搜索整合能力。
不过,从整体判断来看,豆包对于这类非网红、无标识的自然景观,其定位准确性仍有限。
结语:视觉能力升级,让图片成为“主动提问入口”
通过此次体验可以看到,豆包在视觉推理能力升级后,已不再局限于“看图识物”,而是围绕图片内容展开多轮对话式分析,支持定位、推荐、规划、选品等复杂需求。
无论是上传旅游照片判断城市位置、分析图中场景是否值得游览,还是识别老物件类型并给出购买建议,豆包均展示出清晰的答案与解释。
对于用户而言,这种“边看图边问图”的交互方式,不再要求精准描述,而是让图像本身成为入口,推动AI推理主动向前走一步。
虽然在部分冷门场景下还存在判断不准、搜索依赖重的问题,但豆包在图片分析中的表现已初步具备“能看图、敢思考、会回答”的雏形,未来或将向更深入的图像语义理解能力演进。