![]()
智东西
作者 王涵
编辑 漠影
最近,图像模型打得可谓是如火如荼。
OpenAI释出新一代图像模型GPT Image 1.5,剑指谷歌Nano Banana Pro。国产大模型厂商也纷纷推出自己的新一代图像模型,生成效果一个比一个惊艳。
就拿谷歌的Nano Banana Pro来举例,你能分辨出以下图片哪张是AI生成的,哪张是现实的图片吗?
![]()
▲左为Nano Banana Pro生成,右为实景图
除了生成图画,作为打工人的我们也开始尝试在工作中使用AI工具生成PPT、海报等,试图减轻工作负担,但AI生成的PPT或海报很难进行二次编辑。一是AI生图模型通常都有付费额度限制,二则是受制于AI生图技术本身。
但有这样一个应用,可以直接将AI生成的图片转换成PPT的形式,将文字、图标、背景等元素,分离成一个个可挪动的图层和可编辑的文本框。而这个应用我们经常会用到却时常忽视,那就是WPS。
智东西上手体验了WPS AIPPT的图片转PPT功能,整体上,图片转换为PPT的过程较为流畅,文本框可以随意拖动,图标元素也可以移动和放大缩小。文本和图标识别较为准确,会有偶尔漏掉一些图标和文字的情况,但整体上已经十分可用。
一、为什么AI生成的图片不能改?WPS:这个难题,我们早就破解了
在体验WPS功能之前,我们要先理清两个问题:为什么文生图模型所生成的图片无法编辑?为什么WPS却可以做到?
1、AI其实是在“画字”
文生图模型本质上是一个“图像分布建模器”。它通过学习海量“图像-文本”配对数据,建立从文本语义到图像像素的映射。其目标是生成视觉上逼真或合理的像素阵列,而非理解并生成结构化的、可编辑的符号信息。
简单来说,目前的文生图模型生成的文字往往是“像素”而非“矢量字符”。文生图模型生成文字不是在写字,而是在“画字”,而这就导致图像中的文字无法二次编辑,但在办公领域,最重要的就是“可编辑”。
2、WPS结合OCR和AI,打破不可编辑“魔咒”
在AI普及之前,有一种格式的文件也是不可编辑的——PDF。跨格式转换对于现在来说并不是新鲜功能,但早期的办公软件对PDF文件几乎只能“打印”或“只读”。
WPS投入大量资源研发了自主的PDF渲染引擎,要知道,实现“Word转PDF”(保真打印)很容易,但实现“PDF转Word/PPT”(反向解析)非常难。通过多年在版面分析、字体还原、表格识别等方面的算法优化,WPS让PDF的可编辑不再是难题。
如今,WPS的“图片转PPT”、“扫描件转可编辑文档”等功能,已经不仅仅是跨格式转换,而是结合了OCR(光学字符识别)和AI智能排版的高级能力。
11月,金山办公与华中科技大学合作自研的统一视觉-语言文档解析框架算法MonkeyOCR v1.5,在全能多模态文档解析基准OmniDocBench v1.5中拿下93.01分的成绩,获得综合性能全球第一。特别是在表格解析方面,该算法的表格结构还原的准确率高达95%。
![]()
正是基于在OCR技术、文档解析和智能排版领域沉淀的多年技术壁垒,WPS将这套成熟的能力迁移至AI生成图片的编辑场景中,顺理成章地破解了“AI生图不可编辑”的行业痛点。
二、把文字图片分离,还能编辑和换字体,WPS直击文生图模型痛点
话不多说,我们直接来看看WPS的效果。
首先我们让Nano Banana Pro生成一张中国剪纸模板的北京今日天气预报页面,生成图片如下:
![]()
而后,我们打开WPS AIPPT官网,找到图片转PPT功能专区,将刚刚生成的图片上传。
![]()
![]()
仅几秒钟的时间,WPS就完成了对图片的识别和对图层的拆解,我们点击在线编辑,即可跳转到WPS里的PPT编辑页面,对刚刚转换成功的图片进行编辑。
可以看到,转换为PPT后,页面中的大部分文字和图标元素都可以自由拖动和修改,并且页面的风格元素与原图保持一致,不用担心会出现风格“魔改”等问题。
![]()
再来试试英文页面,我们用Nano Banana Pro生成了一张制作豆蔻奶茶的流程图,看看WPS的转换效果如何:
![]()
原图中的图表和文字都比较多且比较密集,从生成效果来看,WPS AIPPT可以很清晰地将文字和底层图片分离开,并且每一小段文字都形成了独立的编辑框可以单独拖动。
但仔细看,有一些原图中较为模糊的文字并没有被识别出来,依旧停留在了底图上。
![]()
那如果不是非常规字体呢,WPS还可以识别出来吗?我们用Nano Banana Pro生成了一张手绘漫画分镜:
![]()
从生成结果可以看出,WPS能够十分清晰地识别出手绘字体的文字,四个分镜画面也可以分别拖动,生成效果较为稳定,可以大大缩短工作流程,提高工作效率。
同样的,用手机拍下来的PPT也可以轻松获取。就比如这张世界人工智能大会上对“AI教父”辛顿教授的介绍页面,我们可以用WPS将其转为可编辑的PPT,不用再到处找类似的模版了。
![]()
![]()
三、不止做AI搭子,WPS其实是“原生Office AI”
WPS AI 的技术理念并非简单地将AI功能嵌入办公软件,而是致力于打造一种全新的“原生Office AI”体验,其核心在于Agentic Software(智能体软件)的概念。
WPS AI 不满足于传统的“问一句答一句”的被动响应模式,它的核心能力在于自主规划。当用户提出一个模糊需求时,AI会像人一样主动思考,自动进行“任务拆解-执行规划-反思修正”全流程。
如果说自主规划是智能体的“大脑”,那么深度工具调用能力就是WPS AI的“双手”。凭借其37年的技术积累,金山办公将办公软件中最核心、最高频的操作,比如字号调整、表格对齐、文本框插入、样式应用等,抽象为AI可精准理解的工具集,实现了办公软件核心功能的无损调用。
这让AI不仅能“想”,还能“做”。它能直接在文档内部进行精确操作,确保格式完美保留,没有乱码或隐藏标签,实现双向无损互通,这正是通用大模型所不具备的“动手能力”。
WPS AI打破了AI操作的“黑箱”,将执行过程全面透明化、可视化。用户在下达指令后,能实时看到AI的思考路径,用户可以在AI思考的任意环节介入纠正,掌控权始终在用户手中。
作为一个办公软件,它将AI能力原生嵌入Office全流程,用户无需在多个工具间切换搬运内容,可在熟悉的办公环境中完成人与AI的协作。通过接管“Dirty work”,WPS AI让用户能专注于内容本身、逻辑思考、审美判断和最终决策。
可以说,WPS AI的终极目标不是炫技或生成内容,而是成为一个能真正“交付结果”的智能体。
结语:WPS给AI办公领域提供范例
AI落地发展到现在,仅仅是“AI+”已经不能满足市场的呼唤。如何才能做到“AI原生”是当下各类应用都在思考的问题。
当前AI办公赛道已形成千亿元规模的市场空间,国内外厂商如谷歌微软等纷纷布局,从单点工具突破到全场景套件构建,竞争焦点正转向技术架构与业务流程的融合。
WPS通过数十年的技术积累和Office办公软件的技术基础,将AI原生融合到工作流中,简化了用户使用AI的流程、削弱了割裂感,真正做到了原生Office AI。





京公网安备 11011402013531号