当前位置：首页 » 资讯 » 新科技 » 正文

刚刚，Codex大更新，你在电脑的操作正在成为AI经验包

IP属地中国·北京 编辑：周伟爱范儿 时间：2026-06-19 16:07:59

你坐在电脑前干活，旁边有个家伙一声不吭盯着你。你点哪它看哪，你填什么它记什么，等你做完，它说一句：下次这活我来。
这就是 Codex 刚刚发布的重磅功能，叫 Record & Replay。
翻译过来就是录制加复现。
你把一套操作完整演示一遍，Codex 在旁边观察学习，然后把整套流程打包成一个 skill（技能）。下回要干同样的活，新开个对话，让它调这个 skill，再告诉它这次哪里不一样，剩下的它自己搞定。
图形界面，这个原本为了让人类摆脱命令行而发明的伟大创造，现在有望成了 AI 接管电脑的现成基础设施。
「学徒」模式上线，Codex 开始复制你的工作流
当然，不是所有任务都适合这么玩。
Record & Replay 瞄准的是那种重复、看个人偏好、说不清楚但做一遍你就懂的活。适用场景有这么几个：报销、订停车位、建一个配置正确的 issue、发视频、拉周期性报表。
这些活有个共同点。要么步骤又固定又繁琐，要么里头藏着一堆只有你自己知道的隐性规则。
比如文件该怎么命名、某个字段默认填啥、到了某个岔路口该往哪走。这种东西你要用文字一条条写清楚给 AI，成本极高。不如直接做一遍，让它自己看。
操作过程也比想象中省事，主要拆成了七步。
先在 Codex 应用里打开 Plugins（插件），搜索并添加 Record & Replay 插件。
然后它来要录制权限，你准备好了就点同意。
剩下的就是你在 Mac 上正常把活干一遍。
这期间 Codex 全程观察，学这套操作要点哪些地方、动哪些窗口的内容。
录制会一直开着，直到你主动停止。所以记住，专心做那一个任务就行，别录着录着开始干别的。
干完从菜单栏或悬浮层停止，或者直接跟 Codex 说一声已经录完。
录完之后 Codex 会复盘一遍刚捕捉到的流程，自己起草一个 skill。这个 skill 里写得很清楚：什么时候该用这套流程、需要哪些输入、按什么步骤走、做完怎么验证结果。
你要是觉得它写得不够好，还能让它再打磨。
几条录制建议值得照做：
演示尽量短而完整；录之前先把目标和那些每次会变的输入告诉 Codex；用真实输入，但密码和敏感数据千万别录进去；录完后补上那些重要的隐性偏好，比如命名规范、字段默认值、决策点怎么选；流程做完就停，别拖到无关的收尾动作上。
至于，下次复现就简单了。新开对话，让它调这个 skill，把这次的具体值喂给它，比如要传哪个文件、建哪个 issue、报表要哪段时间。
有个关键设定需要注意：Codex 会把这个 skill 当作可复用的上下文（reusable context）。
什么意思呢？这个 skill 不是一段写死的脚本，而是一份它每次都能拿来参考、再结合当前环境灵活执行的说明书。所以同一个 skill，这次传 A 文件、下次传 B 文件，它都能套着用。
具体干活的时候，它会调动当前环境里能用的工具，包括 Computer Use、浏览器操作和已安装的插件，把流程跑完。
Codex 到底怎么「用电脑」
来看一次公开演示。
这回 Codex 要学的是上传 YouTube 视频的完整流程。它的工作方式是盯着用户在 YouTube Studio 里操作，把点击、选文件、敲文字这一整串动作全捕捉下来。
诸如选视频文件、填标题和描述、传缩略图、加字幕、设隐私选项等等，Codex 全记下来了，随后展示了独立复现的能力。
更有意思的是，它不只是机械地照着步骤复读，还试图搞懂背后的逻辑和门道。
比如什么时候该把视频设成 Private、什么时候设 Unlisted，怎么管 .mp4 视频文件和 .srt 字幕文件这种成对的东西，元数据字段该怎么填，字幕怎么跟视频对上号。
它甚至现场处理了一次报错：
缺 Python 环境的时候，它直接从已安装的 skill 位置读信息，自己适配过去了。而这一整段录下来，转译成一个随时能调用的 skill。
换句话说，Codex 一旦学会，理论上就能在没人盯着的情况下反复执行。对那些天天要传一堆视频的内容工作流来说，这事确实有用。
要搞懂它凭什么能复现，得先看 Codex 到底怎么操作电脑。
OpenAI 工程师 Jason 之前梳理过 Codex 用电脑的三条路，能力有重叠，各有各的地盘。总原则是：能用插件或 MCP 就先用，视觉控制留给结构化工具够不着的边角。
第一种叫 Computer Use，覆盖面最广。
它能在 macOS 和 Windows 上看见并操作图形界面，通过窗口、菜单、键盘、剪贴板来动那些授权过的应用。
代价是慢，因为它得看界面、判断点哪、等响应、再确认状态，一步一回头。但好处也明显，那些没有 API 的应用它也能对付，比如 Spotify、Xcode、系统设置、iOS 模拟器，甚至能通过 iPhone 镜像去操作 iPhone。
在 macOS 上它还能后台跑，你能同时干别的。它信任边界也最宽，凡涉及钱、账户、支付、凭据的改动，建议你全程在场盯着。
这也解释了为什么 Record & Replay 只能跟着 Computer Use 一起开启。它录下来的操作要复现，靠的就是 Computer Use 这套看界面、动鼠标键盘的底层能力。
第二种是 Chrome 扩展。
它接管你已经登录好的 Chrome，适合那种靠账号、cookie、已认证标签页的任务，比如 Gmail、Salesforce、内部仪表盘。它能玩多标签，把同一个任务的好几个标签页串成一个完整工作流来理解。
代价是它带着你的身份在动，网站会把它的点击和提交都当成你本人，所以发送、发布、购买这种步骤一般得先过你审核。
第三种是应用内浏览器。
它活在 Codex 对话内部，跟你共享同一个渲染页面，特别适合开发调试 Web 应用。它最大的特点是隔离，不碰你的浏览器配置、cookie、扩展和登录会话。
需要的时候这是限制，不需要的时候反而是个干净的边界。开发者能让它改代码、操作页面、截图、修完再跑一遍，形成一个紧密的反馈循环，还能直接点页面元素留设计意见。
另外还有个叫 Appshot 的机制，它不操作电脑，只负责把 Codex 的注意力指到你眼前的东西上。在 Mac 上连按两下 CMD 键，它就抓最前面那个窗口，把图像和文字附进对话。你对着一个报错、一封邮件、一个看不懂的表单直接发问就行。
用 Jason 的话说，Appshot 负责指方向，浏览器、Chrome 扩展和 Computer Use 负责动手。而 Record & Replay 录下来的 skill，正是可以随时调动上面任意一种或几种方式来复现。
人类操作软件的经验，正在变成 AI 技能
从今年以来，Codex 的发布节奏仍在不断加速，许多人都不知道的是，Codex 应用、CLI 和 SDK 不是只能配 OpenAI 自家模型。
在 config.toml 里配一下 model_providers，你可以把 Codex 指向 Ollama、LM Studio 这类本地开源模型，也能接 Mistral、Azure、Amazon Bedrock 这些第三方。传个 --oss 参数就能跑本地 provider，不指定的话默认走 oss_provider。

标签：软件视频任务能力人类文件文字边界键盘方式 结构化 字幕菜单页面步骤 视频文件 理论功能学徒工具流程用户意义报表时候环境东西命名 动鼠标 隐性老实别录

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

华为阔直板手机年底发布：7K大电池、潜望三摄

Claude Code发了个“王炸”功能，打工人狂喜

因用AI编造证据材料，英国一警员面临刑事调查

陈立武：英特尔未来5-10年实现十倍回报

开源游戏引擎Godot 4.7发布：新增HDR输出、完善触控交互等

蔡崇信：阿里正全面投入AI 开源的主要推动力量来自中国企业

全站最新

华为阔直板手机年底发布：7K大电池、潜望三摄

Claude Code发了个“王炸”功能，打工人狂喜

因用AI编造证据材料，英国一警员面临刑事调查

陈立武：英特尔未来5-10年实现十倍回报

热门推荐

华为阔直板手机年底发布：7K大电池、潜望三摄

Claude Code发了个“王炸”功能，打工人狂喜

因用AI编造证据材料，英国一警员面临刑事调查

陈立武：英特尔未来5-10年实现十倍回报

开源游戏引擎Godot 4.7发布：新增HDR输出、完善触控交互等

蔡崇信：阿里正全面投入AI 开源的主要推动力量来自中国企业

“AI教父”杨立昆锐评马斯克：xAI“失败”、SpaceX出色、特斯拉FSD有用

微软承认6月Win11更新导致回收站弹窗显示异常

小红书，翻过IPO这一页

追觅开始给自己的扩张降噪

上线自营家装App，京东阿里字节快手激战万亿市场

从"Token竞赛"到"Token节流"：月人均成本7500美元，天价账单倒逼巨头集体踩刹车

麻省理工学院新研究：过度依赖聊天机器人或削弱批判思维

深圳如何打造全球具身智能高地？这份行动计划划出重点

任命前SK海力士CEO领导封装业务，英特尔股价大涨10%创新高