AI 搜索引擎正逐渐取代传统搜索入口,「问 AI」已经成为日常习惯。随着 OpenAI 宣布在 ChatGPT 中引入商业推荐,搜索与内容分发的边界正在被重新定义。在这样的环境下,你的内容能否在 AI 搜索中成为「爆款」,不再只取决于标题和流量,而是更大程度取决于 AI 本身的引用偏好。
你不只是和其他网页争排名,而是在争夺被AI「采纳进答案」的份额。被引用的网页未必最权威、也未必最早发布,它往往只是有更「适合被拼进回答」的写法。
卡内基梅隆大学的研究团队发表在 ICLR 2026 的这篇论文把这种新流量密码解码得很直白。
论文、代码、模型参数、试用 Demo 见
Github。
论文标题:What Generative Search Engines Like and How to Optimize Web Content Cooperativelyhttps://github.com/cxcscmu/AutoGEOGithub:
01 GEO:从 ranking 变成
「visibility in answers」
传统搜索的基本动作是「检索 + 排序」:给你一串链接,用户自己点击阅读。
生成式搜索引擎(Generative Engines,GE),例如 Google AI Overview、ChatGPT,正在形成新的流量规则。这类引擎的基本动作通常是「检索 + 综合 + 生成」,先检索候选文档,再让 LLM 把内容整合成一段答案,顺带附上引用来源。
这带来一个结构性变化:内容的曝光不再等于「排第几」,而是等于在答案中被写进多少、写在多靠前的位置、以怎样的方式被引用。也因此,过去那种「写得更 SEO」未必等于「更容易被生成式引擎吸收」。
于是出现了Generative Engine Optimization(GEO),优化网页内容以提高被 AI「采纳进答案」的份额。但现有的 GEO 多靠人工启发,比如加统计、关键词策略、强调流畅等,依靠直觉和经验。
更麻烦的是:如果你为了被引用而改写,可能会伤害生成式引擎输出的可靠性与效用。这就是论文不断强调的「合作式(Cooperative)」立场:优化可见性,不能以牺牲引擎效用为代价。
02 AutoGEO:用最大反差样本,
把偏好从玄学变成规则集
这篇论文的核心贡献是提出 AutoGEO:先从大量「可见性有差异」的对比证据里,自动抽取生成式引擎偏好规则;再用这些规则去改写网页,并且把对引擎效用(Generative engine utility,GEU)的影响纳入评估。他们还训练出一个小模型 AutoGEO Mini,推理成本只有 API 方案的 ~0.0071x。
AutoGEO:规则发现 -> 规则驱动改写(API / 小模型)的整体框架。
AutoGEO 的第一步不是改写网页,而是学习「口味」。作者把生成式引擎抽象为:对每个 query,引擎检索候选网页集合,再用 LLM 生成答案。随后计算每个候选网页在答案中的可见性分数。可见性分数沿用 GEO 系列客观指标衡量:不仅看引用字数(Word),还看引用位置权重(Pos),以及综合指标(Overall)。
关键设计在于「证据选择」:对每个 query,他们不做平均对比,而是挑一对可见性差距最大的网页。使用这样一对一个被大量吸收、一个几乎没被用的文档,也就最容易看出偏好差异的「判别特征」。
接下来是四段式 LLM 处理步骤,把海量对比样本压缩成可执行规则:
Explainer:对比两篇文档与最终答案,生成自然语言解释(它们哪里不同、为何可能导致引用差异)。Extractor:把解释提炼成结构化 insights(偏好因素的要点化表达)。Merger:把成千上万条 insights 合并成候选规则。为了可扩展性,论文设计了 Hierarchical merging,解决「上万样本 -> 稳定规则」的合并瓶颈。Filter:过滤掉噪声、歧义与不稳定规则,得到最终规则集。
03 怎么用:
即插即用与超低成本可部署
AutoGEO 的第二步才是改写:让网页更符合规则,从而更可能被生成式引擎引用。
路线 A:AutoGEO API(prompt-based,即插即用)
把规则集直接嵌入 prompt 的「Quality Guidelines」,调用强 LLM API 如 Gemini、GPT 完成重写。优点是无需训练、部署快;缺点是成本和吞吐受 API 限制。
路线 B:AutoGEO Mini(RL-based 小模型,超低成本可部署)
作者微调小模型做同样的改写,并用强化学习把「可见性提升」与「合作式约束」绑定在一起。
Cold start:先用 AutoGEO API 做 Teacher 生成改写数据,对小模型做 SFT,避免 RL 初期发散。
GRPO 强化学习:同一文档采样一组候选改写,按奖励学习。奖励由三部分组成:Outcome reward(改写是否提升可见性)、Rule reward(是否满足抽取到的规则)以及Semantic reward(语义是否忠实原文)。
04 怎么评估「有效且不作恶」
这篇论文的评估不只刷可见性指标,还显式评估引擎效用(Utility)是否被破坏。论文实验涵盖三个数据集GEO-Bench、Researchy-GEO、E-commerce,分别测试 AutoGEO 在不同领域、不同意图环境中的性能。
同时,实验考虑基于多种前沿 LLM的 generative engine,包含 Gemini、GPT、Claude。
实验指标主要分两类:
GEO:度量网页在答案中的可见性,沿用 GEO 的三类指标 Word / Pos / Overall;
GEU:衡量合作程度,也即答案质量,度量生成式引擎答案与真实答案的相关性、忠实性与质量。
实验结果表明,AutoGEO API 与 AutoGEO Mini 在多个设置下显著提升可见性指标,尤其 AutoGEO API 的提升幅度很大,比最强的基线模型高 50.99%。
三大数据集上的总体对比:AutoGEO API / AutoGEO Mini 显著优于基线。
论文把合作式的承诺落在 GEU 指标上:在大幅提升 GEO 指标的同时,GEU 多数情况下与 Vanilla 接近。
这点很关键:GEO 如果只看「我被引用了多少」,会不可避免把互联网推向噪声与操纵;但如果把 GEU 纳入硬指标,至少为「优化的边界」提供了可讨论的标准。
不同引擎下,可见性(GEO)与效用(GEU)并列对比。
05 发现:规则并不通用
规则既有共识,也有碎片化风险。
如下图 (a),论文显示不同 LLM 引擎之间偏好规则重叠度不低,说明存在「通用型好写法」;但仍有 engine-specific 的独特规则。更剧烈的是图 (b) domain shift:从开放域数据集迁移到电商意图,规则重叠显著下降;并且电商更偏好 actionable guidance(可操作步骤、建议),研究类更偏好 in-depth explanation(机制、原因、背景的解释深度)。
不同领域 / 任务下的共通规则与独特规则示例:一套写法可能跨域失灵。
这对内容生态是一个直接的信号:未来可能出现「同一页面多版本」,分别迎合不同引擎,甚至按领域意图维护不同写作模板。
06 小结
AutoGEO 给内容方打开了一扇门:偏好可以被抽取、规则可以被更新、改写可以被训练、成本可以被压到极低。
生成式搜索时代的一个新现实是:你写给人看的网页,可能首先要通过「答案机器的消化系统」。下一步怎么走,决定互联网会更透明,还是更像一场模型与模型之间的军备竞赛。接下来真正的竞争不仅在内容方,也在引擎与生态治理:
当大量网页开始「为引用而写」,引擎还能否区分「更有信息量」与「更像会被引用的信息」?
如果平台开始频繁更新偏好以对抗被规模化迎合,是否会出现一场持续的「规则 - 反规则」军备竞赛?
AutoGEO 把 GEO 从玄学推进到工程,也把生成式搜索的下一轮博弈,提前公开了。
作者简介





京公网安备 11011402013531号