当前位置：首页 » 资讯 » 新科技 » 正文

豆包学会看图思考了，一张图就能帮你规划暑假出行

IP属地中国·北京 编辑：江紫萱智东西 时间：2025-07-30 14:08:31

智东西AI前瞻（公众号：zhidxcomAI）
作者江宇
编辑漠影
智东西AI前瞻7月29日报道，今日，豆包App宣布“视觉推理能力”全面升级，正式上线图像分析的深度思考模式。
用户只需拍摄或上传一张图片，即可在“深度思考”模式下使用放大、裁剪、图搜等功能，结合边看图边发问的交互方式，实现更高精度的图片语义理解和推理能力。
这一升级不仅支持识别图中物体，更进一步延伸到对图像背后场景的理解判断。
一、拍图就能提问，豆包开启“边看图边思考”新交互
在本次升级中，豆包新增的“深度思考”模式，支持用户围绕图片本身进行自由提问。
无论是拍摄街景、上传老照片，还是记录物件，都可以直接向豆包提出“这是什么”“在哪里”“属于哪个年代”等问题，系统会结合图像内容进行推理分析，给出解释。
功能入口已集成在豆包App对话界面中，用户选择“深度思考”，上传图片后即可触发分析流程。
“以图搜图”模式下，豆包还可自动激活图像放大、裁剪、图片搜索等工具，帮助用户进一步观察细节，提升问答准确性。
二、一次完整旅行对话：豆包从“在哪”到“带啥相机”都能帮你安排
这次体验中，智东西模拟了一次“从照片出发规划旅行”的完整对话流程。
1、上传街拍图，豆包识别出“你在哪”
第一步，智东西上传了一张街头照片，并询问“我在哪？”。

豆包在未提供任何位置信息的情况下，识别出画面为“上海的武康大楼附近”，并补充说明其为“上海具有代表性的历史建筑，也是网红打卡地”。
进一步追问“这幅图是不是照骗”“暑假适合去吗”，豆包的回答也较为全面：指出照片中建筑外观与实景一致，但构图和光线可能增强了美感；同时给出天气、人流、交通等方面的旅游建议，提醒避高温、错峰出行、准备防暑物品等，具有实际参考意义。

2、上传江南街景图，豆包识别景点，并生成2天1夜旅行攻略
接着，智东西上传了一张江南水乡风格的街景图，想让豆包生成“换场”的旅游攻略。

豆包识别出这是“苏州平江历史文化街区（平江路）”，并描述其“河道蜿蜒、白墙黛瓦、摇橹船穿行其间”的场景特征。
随后提出“我想同时去这两个地方，如何安排行程？”的问题后，豆包生成了一份详尽的“武康大楼+平江路2天1夜”旅行攻略。
内容覆盖每日路线、跨城交通、拍照点位、文艺店铺、餐馆推荐、防暑提醒等细节，结构清晰，实用性强。

整体来看，豆包在“图片分析”模式下，具备地点识别能力，还能基于多个目标地点，串联生成完整的旅行计划，展现出较强的上下文理解与推理能力。
3、拍CCD摊位，豆包识别型号并推荐适合“出片”的机型
在确定了行程后，智东西又上传了一张街边复古相机摊的图，想让豆包推荐适合拍照的机型。

豆包迅速识别出图中主要为“胶片傻瓜机”“旁轴相机”等类型，并准确指出Olympus μ2、Canon Autoboy D5、Leica CM等具体型号，细节识别能力表现较为扎实。
此后，围绕“如何选出片效果好的相机”的问题，豆包还提供了分层级的购机建议，包括新手入门、进阶玩家的不同选择，并对操作难度、风格偏好、预算区间等做出说明。
它还特别提示了购买二手机时需检查快门、镜头等细节，并估算了拍摄和冲洗胶片的实际成本。

在这类物品识别与使用建议任务中，豆包已初步具备“看图-识别-建议”闭环能力，尤其适用于旅游类消费决策场景。
三、冷门景点识别挑战：这回豆包也拿不准
为测试在“非热门地标+自然景观”条件下的表现，智东西还上传了一张南京止马岭的实拍照片。

这张图没有明显的地标建筑或文字提示，视觉线索相对稀少。豆包未能识别出“止马岭”这一具体地点，但结合杉树的外形特征、水中生长环境以及秋季色彩，判断其为“池杉或水杉湿地景观”。
调用10篇资料后，豆包推测可能拍摄于“成都白鹭湾湿地公园”，并在参考结果中提及“常州翠竹公园”“南京止马岭”等相似景点——虽未命中，但说明其在模糊场景下具备一定类比和搜索整合能力。

不过，从整体判断来看，豆包对于这类非网红、无标识的自然景观，其定位准确性仍有限。
结语：视觉能力升级，让图片成为“主动提问入口”
通过此次体验可以看到，豆包在视觉推理能力升级后，已不再局限于“看图识物”，而是围绕图片内容展开多轮对话式分析，支持定位、推荐、规划、选品等复杂需求。
无论是上传旅游照片判断城市位置、分析图中场景是否值得游览，还是识别老物件类型并给出购买建议，豆包均展示出清晰的答案与解释。
对于用户而言，这种“边看图边问图”的交互方式，不再要求精准描述，而是让图像本身成为入口，推动AI推理主动向前走一步。
虽然在部分冷门场景下还存在判断不准、搜索依赖重的问题，但豆包在图片分析中的表现已初步具备“能看图、敢思考、会回答”的雏形，未来或将向更深入的图像语义理解能力演进。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

iPhone 17系列开售，华为出击！

iPhone17 PM橙色版黄牛加价涨至1000元

外卖大战中场观察：三巨头不再上头，“小甜水”痛并快乐

第八届IEEE国际无人系统大会举办科技“翅膀”赋能文化腾飞

供销大集：截至9月顺客隆社区团购业务订单量已超去年全年

英伟达50亿美元入股英特尔，将发布CPU+GPU合体芯片，大结局来了

全站最新

iPhone 17系列开售，华为出击！

iPhone17 PM橙色版黄牛加价涨至1000元

外卖大战中场观察：三巨头不再上头，“小甜水”痛并快乐

第八届IEEE国际无人系统大会举办科技“翅膀”赋能文化腾飞

热门推荐

Meta重磅产品亮相，AI眼镜概念股强势崛起

中国茶饮，「占领」华尔街

近8000万元！跨界押注屋顶光伏，长高电新背后逻辑是什么？

CIS三巨头半年报透视，增长密码藏在哪？

资本涌入脑机接口：融资频创新高，企业格局一览

上半年增收不增利，民生银行活成了“夹心饼干”

迎驾贡酒上半年净利润下降18.19%：存货创新高，76亿目标如何兑现？

独家对话前零跑联创吴保军：瞄准电动车市场，欲打造“汽车界爱马仕”

iPhone17 PM橙色版黄牛加价涨至1000元

翟欣欣一审获刑12年，并处罚金10万元赔偿7万余元

影视飓风员工怒怼代理公司：试驾车提供假临牌，中间传个话赚百万

OpenAI惊爆AI"阴谋论"！模型会故意欺骗人类，训练越多反而越狡猾

微软在 Teams 中引入 AI 助手，提升工作效率

英伟达50亿美元入股英特尔，芯片巨头联手重塑AI格局

Luma AI 发布 Ray3：首款支持 HDR 视频生成的创新模型