当前位置：首页 » 资讯 » 新科技 » 正文

JarvisEvo 如何让 Agent 像人类一样拥有「视觉反思」能力？

IP属地中国·北京 机器之心Pro 时间：2025-12-24 16:15:37

在迈向通用人工智能的道路上，我们一直在思考一个问题：现有的 Image Editing Agent，真的「懂」修图吗？
大多数基于 LLM/VLM 的智能体，本质上更像是一个「盲目的指挥官」。它们能流利地写出修图代码或调用 API，但在按下回车键之前，它们看不见画布上的变化，也无法像人类设计师那样，盯着屏幕皱眉说：「这张对比度拉太高了，得往回收到一点。」这种感知与决策的割裂，直接导致了「指令幻觉」，或者说模型在进行盲目的「脑补」。由于缺乏视觉反馈，模型往往凭空想象下一步操作，导致结果与用户的初衷南辕北辙。
此外，在传统强化学习中经常依赖于静态的奖励模型。随着模型的不断训练，它很容易学会如何「讨好」这个固定的打分器，导致Reward Hacking——即分数很高，但审美并没有真正提升。
为了打破这一僵局，JarvisEvo应运而生。它不仅仅是一个连接 Adobe Lightroom 的自动化工具使用者，更是一次大胆的探索：探索 Agent 如何通过「内省」，真正实现自我进化。

论文标题：JarvisEvo: Towards a Self-Evolving Photo Editing Agent with Synergistic Editor-evaluator Optimization论文地址:https://www.arxiv.org/pdf/2511.23002项目主页:https://jarvisevo.vercel.app/Github：https://github.com/LYL1015/JarvisEvoHuggingface Daily Paper：https://huggingface.co/papers/2511.23002作者团队来自腾讯混元和厦门大学：Yunlong Lin*, Linqing Wang*, Kunjie Lin*, Zixu Lin*, Kaixiong Gong, Wenbo Li, Bin Lin, Zhenxi Li, Shiyi Zhang, Yuyang Peng, Wenxun Dai, Xinghao Ding♣, Chunyu Wang†, Qinglin Lu†
核心范式转移：
从「执行者」到「思考者」

JarvisEvo 的核心哲学在于模仿人类专家的慢思考模式。一个资深修图师的工作流永远是闭环的：观察原图 -> 构思 -> 尝试调整 -> 观察结果 -> 评估/反思 -> 再调整。我们将这一直觉转化为三大技术支柱：
iMCoT：让思维链「长出眼睛」
传统的思维链 (CoT) 是纯文本的独角戏。JarvisEvo 引入了iMCoT (Interleaved Multimodal Chain-of-Thought)，将视觉反馈强行插入推理循环。
打破黑盒：每执行一步工具（例如调整色温），系统立刻生成中间渲染图。动态规划：模型不再是一次性生成所有步骤，而是基于当前的视觉状态来决定下一步。它能「看到」上一具体操作带来的过曝或偏色，并即时修正。

SEPO：左手画图，右手打分
这是 JarvisEvo 最「性感」的设计。既然外部奖励模型容易被 Hack，那为什么不让 Agent 自己训练自己的审美？我们提出了SEPO (Synergistic Editor-evaluator Policy Optimization)，让模型在训练中分饰两角：
编辑者 (Editor)：负责干活，目标是修出好图。评估者 (evaluator)：负责挑刺，目标是精准打分。
这就形成了一种类似 GAN 但更复杂的协同进化：编辑者为了拿高分，必须提升修图质量；评估者为了不被人类专家「打脸」，必须提升鉴赏能力。为了防止模型「作弊」（即模型发现只要生成「100 分」的文本就能降低 Loss），我们设计了SLM (Selective Loss Masking)机制。这相当于老师在改卷时，遮住了学生自己写的「我给自己打满分」那一行，迫使学生只能靠前面的解题过程（推理和工具使用）来真正赢得高分。
On-Policy Reflection：从错误中提炼智慧
JarvisEvo 的第三个杀手锏是它的反思机制。
在 Stage 2 的训练中，我们构建了一个自动化流水线：当模型偶然修出了一张好图（高分轨迹），而之前某次尝试失败了（低分轨迹），系统会立刻捕捉这组对比。
通过引入「导师模型」（如 Gemini/GPT-4），我们让系统分析：「刚才那次为什么失败？是因为白平衡参数太激进了吗？」
这种生成的反思数据 (Reflection Data)被用于第三阶段的微调。最终，JarvisEvo 习得的不仅是「如何修图」，更是「当修坏了时如何自救」。

硬核工程：ArtEdit 数据集与训练流水线
为了支撑这套逻辑，我们没有使用通用的微调数据，而是从零构建了 ArtEdit：
170K 专业样本：覆盖从风光到人像的 10 大类摄影场景。全工具链覆盖：完美映射 Adobe Lightroom 的 200+ 个参数。双视角数据：既有修图轨迹 (ArtEdit-Lr)，也有人类专家的审美评分 (ArtEdit-eval)。
我们的训练并非一蹴而就，而是采用了类似人类学习的三阶段课程 (Curriculum Learning)：
冷启动 (SFT)：先学会工具怎么用，语法怎么写。协同进化 (RL/SEPO)：扔掉标准答案，在自我探索中通过「左右互搏」提升上限。反思微调 (Reflection)：针对易错点进行特训，学会自我纠错。

实验结果

ArtEdit-Bench 评测结果

在严苛的ArtEdit-Bench评测中，JarvisEvo 展现了统治力：
内容保真度：相比商业模型 Nano-Banana，L1/L2 误差降低了44.96%。这意味着它在修图时不会破坏原图的画质细节。人类偏好：在盲测中，JarvisEvo 取得了49%的胜率，远超 Nano-Banana 的28%。审美对齐：更有趣的是，作为「裁判」，JarvisEvo 对图片质量的打分与人类专家的相关性 (SRCC 0.7243) 甚至超过了 Gemini-2.5-Flash。
视觉效果

在视觉效果上，JarvisEvo 专为细粒度专业调色而生。得益于其深度的意图理解、多模态推理以及独特的自我反思闭环，JarvisEvo 在处理复杂修图需求时，展现出了超越当前所有商业及开源 AIGC 模型的显著优势。
JarvisEvo vs. OpenAI X Adobe PhotoShop

出于好奇跑了一下 OpenAI 的新功能，虽然能调 PS，但感觉更像是 Workflow 的搭建，缺乏垂直数据的 Training。在我们的 Benchmark 上，论指令遵循和修图审美，目前的 JarvisEvo 表现明显还是要更好很多。
结语：
不仅是修图
JarvisEvo 的意义远超图像编辑本身。它验证了一种「Actor-Critic 协同进化」的通用范式。这种让模型在内部建立「自我批评家」，并通过多模态反馈不断修正行动路径的方法，完全可以复用到复杂代码生成、数学推理、机器人控制等需要长程规划的领域。
我们正在见证 Agent 从「听话的执行者」向「会反思的创作者」的惊险一跃。而 JarvisEvo，刚刚迈出了这一步。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

日产推出2026款艾睿雅/艾睿雅NISMO电动汽车

斯坦福等顶级院校联合破解embodied AI密码

香港科技大学团队突破传统机器学习边界

福特智趣烈马上市，以“全地形露营SUV”入局新能源市场

Google发布2025搜索年鉴，中国今年上榜很多次

已告知中国客户春节前出货欲交付最多8万颗H200芯片：英伟达回应！

全站最新

日产推出2026款艾睿雅/艾睿雅NISMO电动汽车

斯坦福等顶级院校联合破解embodied AI密码

香港科技大学团队突破传统机器学习边界

福特智趣烈马上市，以“全地形露营SUV”入局新能源市场

热门推荐

北京市新增2款已完成备案的生成式人工智能服务

北京市机器人产业协会将于12月26日成立

现代汽车美国公司因安全隐患召回逾5万辆汽车

全国首个规划资源大模型“云宇星空”发布！6000亿参数，让城市规划“问不倒、调图快、识图准”

AI 芯片短缺引发智能手机价格飙涨，2026年售价或上涨近7%

日产推出2026款艾睿雅/艾睿雅NISMO电动汽车

美多名作家起诉谷歌等6企业用版权书籍训练AI

斯坦福等顶级院校联合破解embodied AI密码

香港科技大学团队突破传统机器学习边界

辉瑞血友病药物出现患者死亡，公司回应

恒瑞医药：子公司获批注射用SHR-A2102临床试验开展两项研究

福特智趣烈马上市，以“全地形露营SUV”入局新能源市场

Google发布2025搜索年鉴，中国今年上榜很多次

已告知中国客户春节前出货欲交付最多8万颗H200芯片：英伟达回应！

当文学、影像与人工智能交汇，“重写未来”AI文学影像大赛开启