![]()
这项由华中科技大学ONE实验室陈宇航、吕天鹏等研究者与芝加哥伊利诺伊大学、马里兰大学合作完成的研究发表于2025年10月,论文编号为arXiv:2510.15842v1。研究团队开发了一个名为PAPER2WEB的创新系统,能够自动将静态的学术论文转换为交互式、多媒体丰富的项目网站。
我们都知道,传统的学术论文通常以PDF格式呈现,就像一本静态的书籍,读者只能被动地阅读文字和查看图片。虽然这种方式在学术界沿用了很长时间,但它有一个明显的局限性:无法提供互动体验,也无法很好地展示研究成果的动态效果。正如一幅静态画作无法展现舞蹈的美感一样,静态PDF难以完全传达现代科研成果的丰富内涵。
研究团队发现了一个有趣的现象:虽然已经有一些工具能够将论文转换为其他形式,比如制作海报、生成演示文稿或创建视频介绍,但这些方法要么会丢失原文的细节信息,要么只保留主要观点而忽略了多媒体内容的优势。这就像把一部精彩的电影压缩成几句话的剧情简介,虽然能传达基本信息,但失去了原作的魅力和深度。
相比之下,在线网页能够将文字内容与多媒体元素有机结合,以协调且易于导航的方式呈现信息。设计精良的网页就像一个精心布置的展览馆,能够在保持核心文本知识的同时,无缝集成多媒体内容,从而在不同社群中实现更广泛、更有效的研究成果传播。
然而,现有的学术论文网页转换方法存在诸多问题。以arXiv HTML项目为例,这类自动转换方法虽然能够生成网页版本,但往往产生布局混乱、文本冗余的结果,降低了可读性、精确性和跨设备访问性。常见的问题包括图片网格排列僵硬、缩放比例不一致、标题与内容分离、缺乏响应式设计和有限的交互性。
为了解决这些挑战,研究团队开发了PWAGENT,这是一个基于多智能体框架的自动化流水线,专门用于将科学论文转换为结构化、交互式的网页内容。这个系统的工作原理就像一个经验丰富的网页设计师,首先将论文内容分解为结构化的资产,然后在统一框架下组织链接和可执行组件。
**一、开创性的任务定义与数据集构建**
PAPER2WEB任务的核心目标是将完整的学术论文转换为既保留核心内容又整合多媒体元素、提升可用性的交互式网站。为了系统性地研究这一问题,研究团队构建了迄今为止最大规模的论文-网页配对数据集。
这个数据集的构建过程颇具匠心。研究团队选择关注人工智能领域的论文,因为这些论文通常较为前沿,经过同行评议,涵盖多个子领域和不同模态,且备受关注,这些特点促使研究者们更有动力创建高质量的展示网站。他们使用自动化工具从ICML、NeurIPS、WWW、ICLR等主要AI会议收集了2020年至2025年间的论文,提取了源链接,解析了完整文本以获取元数据(标题、作者、会议、年份),并从Semantic Scholar检索了引用次数。
为了确保数据质量,团队为每篇论文的引言部分提交给大型语言模型,让其分配十三个主题类别之一,这样就能够进行标准化的跨论文分析。在项目网站搜索环节,他们的流水线从每篇论文及其代码仓库中检索外部链接,扫描论文主体和README文件,解析每个链接周围的本地上下文,抓取目标HTML内容,并使用大型语言模型分析内容。人工审核员会解决模糊案例,确保每篇论文最多对应一个规范的项目网站。
经过精心筛选,最终数据集包含10716篇具有人工创建项目主页的论文和85843篇没有相关链接的论文。他们将论文按照ICML、NeurIPS、ICLR会议分类法分为13个类别。数据分析显示,计算机视觉领域对项目网站的需求最为强烈,近年来主页采用率稳步上升。
通过手动审核2000个样本,研究团队对网页特征进行了分类。他们将交互式网站定义为具有动态行为和可探索组件、能够响应用户意图的页面;多媒体页面定义为嵌入视频等丰富媒体的页面;静态网站定义为主要提供文本和静态图像的线性展示页面。数据显示,虽然许多页面仍然是静态的,但通过嵌入视频和动画进行多媒体传播的情况值得注意,而能够增强用户体验的交互功能仍然相对罕见且实现不均。
**二、全面的评估框架设计**
为了系统性地评估生成的学术网页质量,研究团队引入了PAPER2WEB基准测试。这个综合性评估框架以信息效率和平衡的文本-视觉组合为双重原则,从三个关键维度评估网页:连接性与完整性、通过人工验证的多模态大型语言模型评估进行整体评价,以及PaperQuiz(衡量网站知识传递效果)。
连接性与完整性评估通过大型语言模型分析HTML源代码,并辅以人工评估以提高可靠性。连接性方面,他们检查网页如何有效链接内部和外部资源以支持连贯导航和信息访问。为了减少评估偏差,使用专门的URL解析器来计算和验证有效超链接,确保链接质量的客观测量。完整性方面,他们测量生成的网页如何很好地再现源论文的核心部分。为了增强一致性,应用了两个定量先验条件:图像-文本平衡和信息效率,以进一步评估结构完整性和内容紧凑性。
图像-文本平衡先验编码了一个启发式规则:有效的学术项目网页应该在视觉和文本内容之间保持大致平衡,避免仅有图像或文本密集的"文字墙"布局等极端情况。他们在标准视口中渲染完整页面时,首先测量所有容器的区域,计算每个容器区域中图像元素占据的比例,图像区域根据容器大小进行加权。文本内容被视为每个容器内的剩余区域(不包括图像),并以相同方式按容器区域比例加权。
信息效率先验通过将生成的文本长度与人工设计的可比较部分的中位数长度进行比较,来奖励简洁、信息密集的呈现方式。选择中位数是因为人工设计的网页通常倾向于简短文本配以多媒体,导致长度的标准差较大;中位数能更好地反映典型需求,同时减轻极端情况的影响。
**三、多维度的整体评估方法**
为了在整体层面评估网页的总体效果,研究团队采用多模态大型语言模型作为自动化评估者,结合人工验证以减轻偏差。该模型为每个网页输出1到5的定量分数,具体评估三个关键维度。
交互性维度测量元素响应性、显著性强调和整体可用性。这个评估标准也考虑可发现性和易学性,其中关键操作应该明显,控件应该自解释。此外,它评估可访问性和可达性,包括键盘导航、屏幕阅读器提示和响应式移动可用性。
美学维度评估元素质量、布局平衡和视觉吸引力。这个维度专注于清晰的布局和视觉层次,以引导用户注意力。WebQuality基准测试强调,避免妨碍用户信息获取的良好结构设计是质量评估的基石。评估包括排版可读性,通过适当的字体大小、行高和稳定样式来确保;颜色和对比度的和谐性、可访问性,以及为所有文本和界面元素提供足够区分度。
信息性维度评估网页内容的清晰性和逻辑连贯性。这个指标测量完整性和深度,也评估信息架构和可发现性,这些都得到逻辑结构、清晰标签和交叉链接或搜索功能的支持。通过有效使用标题、项目符号、标注和摘要实现的可扫描性是另一个关键方面。
**四、创新的PaperQuiz评估方法**
受到Paper2Poster研究的启发,研究团队专注于学术网页,认识到其在作为作者与更广泛受众之间动态桥梁的学术交流中的核心作用。因此,他们设计了一个模拟这种知识传递场景的评估协议。
评估过程分为两个阶段。首先,他们使用大型语言模型作为考官,从源论文生成50个综合问题集。这些问题分为两种类型:25个逐字问题,可以直接从网页上的特定文本、图形或表格中回答;25个解释性问题,需要对论文的核心贡献、方法论和结果有更高层次的理解。
在第二阶段,他们向多样化的多模态大型语言模型面板(包括开源和闭源模型)展示渲染网页的截图。这些模型的任务是仅基于提供的网页内容回答测验。通过比较不同生成网页的测验分数,他们能够定量评估哪个网页最有效地传达了原论文的基本信息。为了防止由于过度文本传输而导致的高分,他们引入了一个惩罚项,以减少冗长性的影响。
**五、PWAGENT系统的技术架构**
为了解决PAPER2WEB的核心挑战,研究团队开发了PWAGENT,这是一个将科学论文转换为项目主页的自动化流水线。该方法的核心是将论文内容解析为由模型上下文协议(MCP)服务器管理的结构化格式。这个服务器封装了关键的论文资产,以及用于网页生成和风格化改进的预定义提示,将它们组织到一个集中的资源库中。
整个过程包括三个关键阶段。论文分解阶段将关键贡献从论文中分离出来。MCP接收阶段将这些贡献封装为由MCP服务器管理的资源库。智能体驱动的迭代优化阶段连接MCP服务器到基于大型语言模型的智能体,通过工具调用自主执行内容匹配和优化。
在论文分解环节,研究团队首先将非结构化的科学论文解构为结构化的知识资产,这些资产将填充MCP资源库。从源PDF开始,文档使用MARKER或DOCLING等工具转换为Markdown格式。然后,大型语言模型执行语义分解,提取元数据,重构表格,建模详细的页面布局和阅读顺序,产生捕获论文关键贡献的机器可读表示,如JSON或Markdown格式。
与其进行摘要,大型语言模型根据预定义架构分析Markdown文本,以识别、分离和组织论文的关键资产。这些资产分为三类:文本资产,每个逻辑部分表示为一个独特的资源对象,包含标题、大型语言模型生成的概要、全文和元数据;视觉资产,图形和表格被提取为图像并链接到原始标题、标签和文本引用以保持上下文;链接资产,外部URL和内部引用被系统性地捕获和分类,以提供对补充材料和相关工作的结构化访问。
**六、MCP接收与资源管理**
在这个阶段,研究团队应用MCP将学术论文转换为结构化、可查询的资源。他们首先实例化一个完全仪表化的MCP服务器,将静态资产转换为具有稳定ID和标准化工具访问点的可查询资源。服务器负责资源构建,使用关系元数据和临时布局预算实现资产;以及工具注册,为下游检索、组合和编辑公开最小、一致的API。
他们用跨模态语义丰富解析输出。大型语言模型用于将每个视觉元素与其最相关的文本描述对齐,并添加对引用段落的反向引用。链接资产按功能分类,以支持结构化交叉引用。为了实现连贯的视觉呈现,内容感知的空间分配启发式估计每个资产的占用空间,并分配比例布局预算以平衡页面上的视觉密度。
这些丰富的记录然后作为MCP资源库提交给MCP服务器,其中每个资源都存储有唯一的资源ID和用于基础和导航的字段。具体而言,文本资源存储完整段落和大型语言模型生成的概要;视觉资源存储图像及其标题;链接资源存储URL、其语义角色和简短描述符。这些资源共同形成一个结构化、交叉引用的库,作为网页合成的基础。
最后,服务器注册一个紧凑的工具套件,提供资源ID的枚举,对基础内容和渲染元数据的访问,用于连接感知放置的类型引用,以及初始布局分配。这个轻量级但富有表现力的接口足以合成一个基础良好的HTML初稿,供后续的多智能体工作流程进行细化。
**七、智能体驱动的迭代优化机制**
研究团队提出了一个智能体驱动的迭代细化机制,以逐步增强生成网页的布局、视觉连贯性和语义对齐。这个过程从初始页面生成开始,智能体使用MCP工具从资源库检索基本元数据和相关资产。基于这些信息,它快速构建一个基础网页,作为后续细化的基线。
初始化之后,系统进入迭代细化循环,持续到不需要进一步纠正操作或达到预定义的迭代限制。核心是作为编排者智能体的多模态大型语言模型,它对渲染网页进行整体视觉评估,并调用MCP工具修复检测到的缺陷。为了解决复杂的布局和视觉一致性问题,编排者执行联合全局-局部推理,并通过工具调用协调有针对性的优化。
为了减少长距离推理过程中的幻觉,智能体将渲染页面分割为独立的视觉瓦片,链接到相应的HTML片段,顺序分析每个瓦片以检测不平衡和错位,并提出精确的编辑。每轮局部细化后,相邻瓦片被合并,借鉴归并排序的思想。因此,相邻区域可以通过整合它们的HTML和图像进行联合优化。这种聚合允许多模态大型语言模型捕获段间依赖关系,防止溢出、遮挡或跨段漂移等视觉伪影。
最后,编排者执行全局检查以评估整体内容完整性和视觉和谐,实现从部分到整体的优化路径,进一步减轻幻觉。一旦优化完成或达到最大细化周期,过程就会终止。
**八、实验设计与性能评估**
研究团队评估了四种不同的基线方法,以严格评估所提出方法的性能。这些方法作为衡量信息传播效率和以人为中心的友好性的关键基准。
黄金标准方法使用作者创建的原始网站,它们是最优呈现和内容传递的黄金标准。端到端生成方法中,GPT-4o、Gemini-2.5-Flash、DeepSeek-V3.2-Exp和Qwen3-Coder-480B-A35B要么通过从头开始基于文本的渲染生成网站,要么通过适应广泛采用的Nerfies学术网站模板。现有HTML版本中,来自arXiv和alphaXiv的研究论文提供公共HTML版本,研究团队抓取了它们的截图和源代码,注意到一些缺乏官方网页格式。
PWAGENT方法中,Qwen3-30B-A3B负责论文解构和MCP接收,而编排者智能体由Qwen2.5-VL-32B模型驱动。
在完整性和连接性评估中,arXiv-HTML获得了高基于规则的连接性,但人工评分低64%,因为它不加区别地将每个引文转换为链接,夸大了度量分数,同时降低了用户体验。alphaXiv通过选择性地表面重要链接显示了平衡的连接性。在完整性方面,arXiv-HTML保留了冗长的文本和少量图像,在大型语言模型和人工评判员那里得分很高,但在基于规则的度量上表现较差。相比之下,PWAGENT在大型语言模型评判的完整性方面比黄金标准高2%,展示了卓越的内容凝练和文本、图像、链接的平衡布局。
**九、实验结果分析**
在整体评估中,PWAGENT在所有维度上都获得了最高分数。虽然alphaXiv在完整性和连接性方面表现良好,但它缺乏交互组件,在交互性方面比研究团队的方法低37%。基于模板的方法有效地指导布局,但限制了交互元素的生成。总体而言,PWAGENT超越了所有生成方法,在美学方面达到黄金标准质量的91%,在信息性方面达到94%,在交互性方面比alphaXiv提高59%。
在PaperQuiz评估中,研究团队观察到几个有趣的现象。在没有简洁性惩罚的情况下,arXiv-HTML得分很高;一旦应用惩罚,arXiv-HTML和端到端GPT-4o都会受到大幅扣分,这突出了简洁、工程化网站的价值,支持网站生成作为有效的上下文压缩。Gemini和Qwen表现强劲,通常优于GPT-4o和DeepSeek;模板提升了所有模型的表现。跨方法比较显示,开源阅读器模型一致优于闭源模型,表明一些开源多模态大型语言模型在某些视觉任务上能够匹配或超越闭源模型。
PWAGENT在各任务和模型上都取得了最佳或接近最佳的结果,总信息覆盖率与arXiv-HTML相当;应用惩罚后,仍然获得最高的总体分数。PWAGENT的惩罚仍然不可忽视,黄金标准网站的得分低于预期,可能是因为它包含许多视频和动画;在实践中,作者可以从PWAGENT开始,添加多媒体内容以达到最理想的设计。
**十、效率分析与案例研究**
在效率分析方面,PWAGENT具有高度的令牌效率,只需要0.025美元就能生产出高质量的学术页面。相比之下,端到端方法成本更高:GPT-4o约为0.141美元,Gemini约为0.054美元每个网站。这产生了分别82%和54%的成本降低,同时保持强大的页面质量和可用性。即使是模板辅助的开源模型约0.069美元仍然贵2.8倍,但没有明确的优势。总体而言,PWAGENT在提供最先进的成本效率的同时保持高呈现质量。
通过案例研究,研究团队展示了不同网站基线的定性比较。GPT-4o显然难以从源PDF生成结构连贯的HTML网页,即使提供模板,其内容完整性仍然很差。相比之下,Gemini生成的网站乍一看内容丰富,使用模板后内部结构显著改善。然而,它存在图像与文本比例不平衡的问题,视觉内容很少,这阻碍了读者系统性理解项目的能力。
官方arXiv-HTML页面虽然全面,但过于冗长。尽管alphaXiv网站既有图像又有文本,插图良好,但其设计单调,缺乏美学吸引力。相比之下,PWAGENT不仅保留了原论文的结构完整性,还实现了良好平衡的图像与文本比例。此外,它提供多样化的样式和卓越的美学质量。然而,与人工设计版本相比,仍有改进空间。
说到底,这项研究为学术交流开辟了一个全新的方向。传统的PDF格式就像是把珍贵的艺术品锁在保险柜里,虽然安全但难以充分展示其价值。而PWAGENT系统就像是一位经验丰富的策展人,能够将这些学术珍品重新包装,以更加生动、互动的方式展现给世人。
归根结底,这个系统解决了一个长期存在的问题:如何让严肃的学术研究变得更加亲民和易于理解。通过自动化的方式生成交互式网站,PWAGENT不仅大大降低了制作成本和技术门槛,还提高了信息传达的效果。这对于促进科学知识的普及和传播具有重要意义,特别是在当今这个信息快速传播的时代。
虽然目前的系统还不能完全达到人工设计网站的水准,但它已经在很多方面超越了现有的自动化方法。更重要的是,这项研究为未来的发展奠定了坚实的基础,随着技术的不断进步,我们有理由相信,自动化的学术网站生成将变得越来越智能和实用。对于感兴趣的读者,可以通过论文编号arXiv:2510.15842v1查阅完整的研究细节和技术实现。
Q&A
Q1:PAPER2WEB系统是什么,它能做什么?
A:PAPER2WEB是华中科技大学团队开发的智能系统,能够自动将静态的学术论文PDF转换为交互式、多媒体丰富的项目网站。它就像一个智能的网页设计师,能够理解论文内容,然后创建包含动画、视频、交互元素的现代化网站,让学术研究变得更生动易懂。
Q2:PWAGENT相比现有方法有什么优势?
A:PWAGENT在多个方面都表现更优。在交互性方面比alphaXiv高59%,在美学和信息性方面分别达到黄金标准的91%和94%。更重要的是,它的成本效率极高,只需0.025美元就能生成高质量网站,比GPT-4o便宜82%,比Gemini便宜54%。
Q3:普通研究者可以使用PAPER2WEB系统吗?
A:目前PAPER2WEB主要还是研究原型,但研究团队已经开源了相关代码。随着技术成熟,未来普通研究者应该能够通过简单的操作将自己的论文转换为专业的项目网站,大大降低网页制作的技术门槛和成本。





京公网安备 11011402013531号