当前位置：首页 » 资讯 » 新科技 » 正文

告别直接生成，文生图进入Agent时代：港中文联合伯克利开源Gen-Searcher

IP属地中国·北京 编辑：陈阳机器之心 时间：2026-04-09 16:24:04

过去两年，图像生成模型在质感和审美上一路狂飙，但大多仍是 “直接出图” 的范式。
一旦 prompt 涉及真实世界知识、最新信息、冷门事实，或者需要跨多个来源核对细节，传统文生图模型就很容易翻车。
因为生成模型缺乏面向真实世界的 Agent 能力，仍然依赖固化的参数知识，缺少主动搜索、验证和整合外部信息的能力。
最近，来自香港中文大学 MMLab、UC Berkeley 和 UCLA 的研究团队提出了 Gen-Searcher，首次尝试为图像生成任务训练一个 “深度搜索” 智能体。它让图像生成模型能够像 Agent 一样进行搜索、推理、找图和浏览网页，从而输出真正可靠的生成结果。所有数据，模型，和代码，均已开源。
论文标题：Gen-Searcher: Reinforcing Agentic Search for Image Generation
论文地址：https://arxiv.org/pdf/2603.28767
项目主页：https://gen-searcher.vercel.app/
现实需求：从 “直接生成” 到 Agentic 生成
现实世界中的图像生成任务，往往不只是 “按 prompt 作画”。很多场景会涉及真实世界知识、最新信息、冷门事实，甚至需要跨多个来源核对细节。模型不仅要会生成，还要先判断哪些信息需要确认、哪些视觉细节需要参考、哪些内容必须依赖外部知识支撑。
在这种背景下，传统文生图模型有两个核心问题：一是主要依赖预训练学到的参数知识，缺乏主动搜索、验证和整合外部信息的能力；二是整体流程仍是 “输入 prompt，直接出图”，缺少像 Agent 那样先搜索、推理、整理证据的过程，因此在真实场景里很容易 “画得像，却画不对”
为了解决这个问题，研究团队提出了 Gen-Searcher，希望把文生图从 “直接生成” 推进到 Agentic 生成
数据构建与 KnowGen 基准
为了训练这种能力，作者先构造了一批真实世界需要搜索才能完成的生成数据，覆盖名人、动漫、物理、化学、艺术、建筑、新闻等约 20 个类别。
随后，作者让强模型配合搜索工具生成多轮轨迹，收集文本知识和视觉证据，再用 Nano Banana Pro 合成目标图像，得到约 30k 条原始样本。经过 Seed1.8 筛选后，最终保留约 17k 条高质量数据，并整理成 Gen-Searcher-SFT-10k 和 Gen-Searcher-RL-6k。
在此基础上，作者还提出了新的 benchmark —— KnowGen。它包含 630 条人工验证样本，用于图像生成 Agent 评测。
模型训练
Gen-Searcher 的核心，是把生成前的信息获取过程做成一个可训练的 Agent。模型不再拿到 prompt 就直接生成，而是先在多轮交互中决定何时搜索、搜什么、是否浏览网页、是否补充视觉参考，最后输出准确的 prompt 和参考图。
它配备了三类工具：文本搜索、图像搜索和网页浏览。训练上则分两阶段进行：先通过 SFT 训练学会工具使用，再通过 agentic RL 优化搜索策略和长程决策。
论文还提出了双奖励反馈。因为只看最终图像效果并不稳定，作者额外加入了一个文本奖励，用来评估输出的 prompt 是否已经包含足够、正确、与生成相关的信息，再与图像奖励结合起来共同训练。这样，模型不仅要 “画得好”，也要 “搜得对”
实验结果
在 KnowGen 上，原始 Qwen-Image 的 K-Score 为 14.98，接入 Gen-Searcher-8B 后提升到 31.52，提高 16.54 分。而且这种能力还能迁移到其他图像生成器上：Seedream 4.5 从 31.01 提升到 47.29，Nano Banana Pro 也从 50.38 提升到 53.30。
在 WISE 测试基准上，模型同样带来了巨大的提升。
可视化分析表明，Gen-Searcher 能够真正提高模型生图的准确性和质量。
写在最后
Gen-Searcher 的推出，不仅展示了 Agentic 生成在知识密集型图像生成任务上的潜力，也为构建真正能够连接搜索、推理与生成的一体化系统提供了清晰路径。
它不仅能 “画”，还能 “查”；不仅能完成传统的文本到图像生成，更能在生成之前主动搜索信息、核对事实、整合证据，展现出面向真实世界复杂任务的生成能力。
在大模型不断走向多模态、强推理与 Agent 化的趋势下，Gen-Searcher 的工作或许只是一个起点，但它所验证的方向，正在成为生成系统迈向 Agentic 时代的重要一步。

标签：图像模型 gen-searcher prompt agent 文本网页 agentic 信息论文

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

新能源汽车静默革命：从轰鸣到低语，聆听未来的声音图景

CJ2026京东展区大揭秘：新潮数码与前沿科技共筑玩家乐园

韩寒出任荣耀影像创想家荣耀Robot Phone发布会定档8月12日

小米VS华为！澎程新车对标问界，智界RX盯上小米YU7

出走米哈游1000多天后，蔡浩宇的AI远征“撞墙”

华为深圳场景化解决方案发布，破解“模型强、场景弱”难题

全站最新

新能源汽车静默革命：从轰鸣到低语，聆听未来的声音图景

CJ2026京东展区大揭秘：新潮数码与前沿科技共筑玩家乐园

韩寒出任荣耀影像创想家荣耀Robot Phone发布会定档8月12日

三菱全新帕杰罗或9月2日发布，外观、动力等细节抢先看！

热门推荐

上半年新能源车注册量近半，现存新能源汽车相关企业近180万家

国产机器人产业加速出海，国内现存相关企业超115万家

国产机器人产业加速出海，国内现存相关企业超115万家

字节跳动Seedance 2.5发布：视频创作升级，支持30秒生成与多素材参考

2026年Q2全球智能手机出货量降6%：三星苹果领涨，小米等厂商承压

植物无大脑却能“对话”“预言”？重新认识地球生命信息网络中的它们

2026年7月手机圈大事件：苹果基带混用红米新机将至小米份额上升 OPPO新机万元起

消息称OPPO或推6.3-6.4英寸阔直屏新机预计与Ultra同档明年亮相

谷歌DeepMind再发力：新一代机器人AI模型攻克全身控制与灵巧操作难题

谷歌Gemini Robotics 2发布：单模型驱动全身自由度，开启机器人通用智能新篇

字节跳动Seedance 2.5发布：30秒生成高质量视频，优化连贯性还去“油腻感”

AI浪潮下企业变革：字节飞书调整，豆包成新增长引擎接棒前行

模型激战正酣，亚马逊云科技另辟蹊径率先收获AI商业硕果

字节跳动Seedance 2.5发布：视频时长延长至30秒，创作能力全面升级

B站运营“社区派”代表林航离职曾为即刻社区风格奠基人