谷歌最新发布的Gemini 3模型正标志着人工智能领域的一个关键转折点。
华尔街见闻此前提及,美东时间18日周二,谷歌正式发布备受期待的该司迄今最强大人工智能(AI)模型Gemini 3,并于发布首日立即在谷歌搜索、Gemini应用程序App及多个开发者平台同步上线,在多个盈利产品中投入使用。
谷歌高管在新闻发布会上强调,在衡量人工智能模型性能的几个热门行业排行榜上,Gemini 3处于领先地位。谷歌AI研究实验室DeepMind的CEO Demis Hassabis表示,Gemini 3是"世界上最好的多模态理解模型",也是公司迄今最强大的智能体和代码生成模型。
根据沃顿商学院教授Ethan Mollick的深度测评,Gemini 3的发布及其配套工具“Antigravity”展示了惊人的“代理”能力。与三年前的GPT-3模型相比,AI不再仅仅是生成文本,而是能够编写代码、构建可交互的应用、执行多步骤任务。
Mollick指出,这种从“描述”到“行动”的飞跃,意味着AI正从一个对话伙伴,演变为一个可以接入计算机并完成实际工作的通用工具。
Mollick的结论是,我们正从“聊天机器人时代”迈向“数字同事时代”。Gemini 3虽然并非完美无瑕,但其所犯的错误已不再是无中生有的“幻觉”,而更接近人类在判断或意图理解上的偏差。
这表明,人机协作的模式正在改变,人类所做的将不再是修正AI的低级错误,而是为其提供高阶的战略指引和方向。这或许是自ChatGPT发布以来,AI领域发生的最大变革。
以下为Ethan Mollick测评文章全文:
三年,从 GPT-3 到 Gemini 3
从聊天机器人到智能体
Ethan Mollick
2025 年 11 月 19 日
我一直在测试谷歌新发布的 Gemini 3 模型。它非常出色。但与其罗列基准数字,不如让 AI 亲自演示这三年我们走了多远——我就是这样做的。
ChatGPT 发布至今已近三年。在它上线前几天,我在这份 Substack 上写了第一篇关于 OpenAI 更早期的 GPT-3 的文章。随后 ChatGPT 横空出世,我立刻又写了一篇:“我通常对技术预测很谨慎,但这次它会比我们预期得更快、更剧烈地改变我们的世界。不再只是自动化重复、危险的工作,现在第一批被 AI 颠覆的,可能是更偏分析、创意、写作与沟通的岗位。”
今天看来,我说对了。![]()
(插图:三年前我用 GPT-3.5 后的首篇文章截图)
我可以口头解释初代 ChatGPT 与今天谷歌发布的 Gemini 3 有多大差距,但没必要。我把上面那张截图扔给 Gemini 3,只写了一句话:
我:“做点东西,让大伙儿看看 AI 这三年进步了多少。”
Gemini:“当然可以。你这条推文来自 2022 年 11 月——现代 AI 热潮的前夜。当时最大的‘哇点’是 AI 能写一段通顺的文字,或者给‘糖果动力超光速飞船逃离水獭’这种傻题目写首小诗。
为了展示进步,我不仅用文字描述,而是直接给你做了一个可交互、可游玩的‘糖果动力超光速飞船模拟器’。
2022 年,AI 只能描述引擎;2025 年,AI 能把引擎写出来、把界面画出来,还让你亲自开飞船。”![]()
它真的做了一个迷你游戏:我得靠糖果能量摆脱追杀的水獭,途中穿插小诗和各种搞笑更新。读这篇博客的人大概早知道 AI 能写代码,但更有趣的是——当你不再把 Gemini 3 当成“聊天框”,而当成“别的东西”时,它还能干什么。
会写代码的工具,不只是“写代码的工具”伴随 Gemini 3,谷歌还发布了 Antigravity。程序员一看就懂:它跟 Claude Code、OpenAI Codex 类似,给你电脑权限,能在指导下自主写程序。
如果你不是程序员,可能会忽略它——我觉得这是错的。“会写代码”不等于“当程序员”,而是“能完成任何在电脑上才能完成的活儿”。 于是,这些工具的本质被彻底改写。
Gemini 3 极擅长写代码,这一点即使你不自认“程序员”也与你息息相关。AI 界的一个底层视角是:你在电脑上做的任何事,归根到底都是代码;只要 AI 能写代码,它就能建仪表盘、扒网站、做 PPT、读文件…… 这让“会写代码的智能体”成了通用工具。Antigravity 把这一理念产品化:给我一个“收件箱”,我把任务派给智能体,它们需要批准或帮助时会通知我。![]()
(插图:四个智能体同时跑,一个在干活,一个等我回应)
我跟它们不用代码,用英语;它们用代码替我干活。Gemini 3 擅长做计划,知道该干什么、何时请示。比如我把历年 newsletter 的稿子全放在一个文件夹,然后吩咐:
“给我做一个漂亮的网页,汇总我对 AI 的所有预测,再上网搜搜哪些说对了哪些说错了。”
它读完所有文件、跑代码、先递给我一份可编辑的方案——这是它第一次开口问我,理解之准确让我惊讶。我小改几处,放它去干。![]()
随后它搜网页、建站、接管浏览器验效果,再把成品打包给我。我像对真人同事一样提修改意见,它继续迭代。![]()
它并非完美无缺——智能体还没到那一步。我没发现幻觉,但确有地方需要我纠正,不过那些错误更像“人类同事会有的判断偏差或误解”,而非传统 AI 的离谱幻觉。重要的是,我感觉自己能够掌控人工智能的决策,因为人工智能会定期检查并确认其工作,而且我的操作过程清晰可见。这种感觉更像是管理一位队友,而不是通过聊天界面与人工智能进行沟通。
博士级智力?Antigravity 并非唯一惊喜。另一重震撼在于——它展现了真正的“判断力”。
我常吐槽:AI benchmark 已经卷成一锅粥。Gemini 3 在大多数榜单上领先(也许还打不过 200 美元的 GPT-5 Pro,但等 Gemini 3 的“深度思考”版出来可能就翻盘)。行业爱用一句广告词:“博士级智力”。我决定真刀真枪测一下。
我把十年前众筹研究的一堆旧文件扔给它——文件名像“project_final_seriously_this_time_done.xls”,格式还是上古 STATA。命令只有一句:
“自己摸懂数据结构,把 STATA 文件清理好,准备做新分析。”
它真的把损坏的数据恢复了,把复杂环境摸透了。
接着我给了它一个典型“博士二年级小论文”任务,不加任何提示:
“很好,现在用这些数据写一篇原创论文。深入调研领域,把主题拔高到创业或战略理论的层面,做严谨统计,写成期刊格式。”
它自己选题、提假设、跑统计、出图表、排版成文——最难的“选题与可执行性平衡”它自己走钢丝搞定了。我仅含糊地说“再充实、再改进”,最终拿到 14 页论文。![]()
(插图:论文前两页)
更惊艳的是,它自创了一个指标:用 NLP 把项目描述与海量描述做数学比对,衡量“众筹创意独特性”。代码自己写,结果自己验。![]()
所以,这算“博士级”吗?
如果你指“能干顶尖高校里一个合格研究生的活”,部分答案是“yes”。但它也有研究生通病:统计方法有瑕疵、理论跳跃过大、证据链不够严谨…… 我们已越过“幻觉”阶段,进入更微妙、更“人类”的缺陷区。有趣的是,当我像带学生一样给开放建议(“再多补众筹文献以确立方法”),它提升显著——也许再多引导就能接近“博士”。
Gemini 3 是什么?
它是一个极出色的“思考+执行”伙伴,全球数十亿人可随手调用;也是一面镜子,照出 AI 并未放缓、智能体崛起、人类需学会管理“聪明 AI”等多重趋势。
三年前,我们为“机器能写水獭诗”而惊叹;不到 1000 天后,我在跟一个自建研究环境的智能体辩论统计方法。
聊天机器人时代正在让位于“数字同事”时代。
没错,Gemini 3 仍不完美,需要会指挥、会核查的“人类经理”。但“人在回路”正从“人替 AI 擦屁股”演变为“人指导 AI 干活”——这也许是 ChatGPT 发布以来最大的范式迁移。
彩蛋:
我让 Gemini“纯用代码给我做一张 Substack 封面图,先查尺寸”,它先上网搜规格,再纯靠数学画图,一条龙搞定。![]()
** obligatory 警告:**
让 AI 智能体获得电脑权限有风险——它可能不经询问就移动/删除文件,甚至泄露文档。等工具面向非程序员时会好很多;当下务必谨慎。





京公网安备 11011402013531号