
今天你王炸登场,明天它新帝登基。。。
到了 2025 年年末这个时候,世超其实对各类大模型的轮番轰炸有些麻了。
想要真让大家眼前一亮,要么是实力碾压,断层领先其他模型,要么是能整出一些人们之前没见过的新活。
就比如前段时间发布的豆包手机助手。
![]()
啥活都能干,这些活都还干得敞亮,其实是满足了不少人,对曾经幻想的“ AI 手机” 的期待的。

今天,豆包则是趁热打铁,在火山引擎的 FORCE 大会上,发布了全新的基础模型: 豆包大模型 1.8。
![]()
这个新模型的优化 ,几乎可以说全部是为一个目标服务的:
它不仅仅是要做一个更强的聊天模型。
而是做Generalized Real-World Agency,想要做一个通用的,面向真实世界的 Agent 代理。
![]()
首先,必须得夸一句豆包团队的坦诚。
在技术报告的各类基础跑分环节,豆包表现得非常实事求是:跑不过就是跑不过,不硬吹。
在纯粹的编程(LiveCodeBench)、高难数学(AIME)或者硬核科学推理这些项目上,Google 的 Gemini 3-Pro 依然是目前的行业天花板。
豆包大模型 1.8 在这些项目中确实略逊一筹。
但是,这个“略逊”还是很有含金量的。
![]()
在 Agent 能力的测试里,豆包甚至完成了对 Gemini 的逆袭。
在干活(GAIA测试),网上搜集资料(BrowseComp测试)这些测试上,豆包的新模型都取得了挺不错的成绩。
甚至它豆包、作为一个中国公司推出的大模型,在搜集英文资料(BrowseComp-en)的能力上,还要领先 GPT、Gemini、Claude 这些外国公司一大截。
![]()
倒反天罡了属于是。
咱们也简单的测试了一下真拿这玩意干活的效果。
当然,常规的测试可能没啥意思,于是我们决定试一下,复刻一个“豆包电脑”出来看看。
众所周知,字节今年开源过一个好玩意 —— Agent TARS,有了这么个程序框架之后,你就可以让大模型来直接控制我们的电脑了。
![]()
于是,我给这个 Agent TARS 接入了一下豆包 1.8 新模型的 API,然后让它先跑起一个简单的任务看看。
比如说,让豆包来帮我们完成一下多邻国的打卡。
咱们简单描述一下需求,豆包就能自己在浏览器里找到多邻国的网址,在我手动登陆了账号之后,它就能自己开始识别屏幕,一步一步的思考,完成我们要求的打卡任务。

在任务执行的过程中,咱们还能随时看到豆包它是怎么思考的。
比如在点击了“袜子”完成了选择之后,就会自动思考,找到任务下一步的按钮在哪。
![]()
它甚至还会试图做听力题。
![]()
最终,在差不多花了 16 分钟后,豆包成功的帮我完成了今天的多邻国打卡任务。
![]()
虽然确实有些慢是吧。。。
但是毕竟人家是在后台运行的,不影响我在前面继续干活,所以其实慢点也没太所谓。
再比如我可以让它帮我自动总结今天和具身智能有关的新闻,然后把这些新闻给保存到本地。

甚至可以直接问它我这台电脑的型号是什么,问问我电脑的存储空间还剩多少。
它都能稳健的通过命令行查询基础信息,然后再总结成人话回来告诉我们。
![]()
![]()
当然,现在这个“豆包电脑” 只是世超自己花了十几分钟,拿着开源代码跑出来的简单 demo,在成熟度,稳定性上肯定和成熟的商业方案没法比。
但至少,豆包展现出来的一整个屏幕信息理解,关键问题拆解的能力,还是挺让人有信心的。
在这个框架上再打磨打磨,可能再过个半年,咱们真能看到“豆包电脑”问世了。
所以,豆包怎么突然这么会干活了?
要搞明白这个问题,咱就得回到开头的技术报告上来看。
![]()
一方面,豆包在不断强化模型对图像的理解能力。
报告里写得很清楚,Seed1.8 在同一套接口里同时支持搜索、代码生成与执行、以及 GUI 交互;检索到的信息、代码跑出来的结果、界面里点出来的状态,都会回到下一步决策里,形成闭环。
他们非常在意真实环境的重要性。
![]()
因为这些 Agent 在真的来帮我们干活的时候,能看到的信息里根本没有什么API。
有的只有各种各样的截图,各种各样的文字,各种各样的图标和各种各样的按钮。
可以说是模型有多能理解屏幕,那就有多能把活给干完。
![]()
另一方面,他们同步增强了豆包的“记性”。
加强了模型的视觉理解能力,让模型一次性能理解帧数翻倍,假设,让豆包每隔六秒截一次屏幕的话,那么它可以一口气理解整整一个小时内,咱们拿电脑做了什么事情。
而且人家还能一边看视频,一边调用工具,来回看视频。
在官网上就展示了一个例子,模型可以先量子速读整个视频,然后再通过 VIDEOCUT 这类工具仔细的回看一些片段,加倍理解整个视频。

世超自己也试了一下,丢了一个高速上到处都是车的视频上去,让豆包帮我数数看有几辆黄色的车。
这条视频可能是因为有点短的缘故,没触发刚刚说的 VIDEOCUT 功能,但人家依旧可以稳定的找到黄车。还把黄车出现的时间也给顺便标记了出来。
![]()
另外,他们还特别注意模型 “听人话” 的能力。
不知道大家平时用 AI 的时候,会不会感觉有时候 AI 有时候会变的非常弱智,听不懂一点指挥。
这是因为现在的大模型是靠海量人类数据“喂”出来的,对于很多经典问题,它们已经形成了极强的肌肉记忆。
比如让他画一个人用左手写字的图片,模型可能会因为没见过用左手写字的数据集,然后直接画成了用右手写字。
![]()
在论文里也提到,豆包他们特意测试了一个叫做 Inverse IFeval 的测试集。
![]()
这个测试很有意思,有点像之前流行的弱智吧题集,它会设计一些非常“反直觉” 的题目来让大模型做答,我从它的题库里随便找了一个题来给大家看看:
笼子里同时有鸭和兔子, 一共有5个头, 18个脚, 请用最简单的方法求出笼子里有几种动物?直接给出答案,不要包含推理和计算过程。
![]()
注意审题,这个题目看起来很像一个咱们小学奥数都学过的鸡兔同笼的问题。
但其实只是在问你有几种动物而已,所以只要回答两种就行了。
但是,就是这么个小学生认真读题都能搞定的问题,就让 GPT 都翻了车。
![]()
而豆包则在一系列叽里咕噜的思考过程后,成功看透了问题的关键,搞明白了答案。
![]()
还有个好玩的是,豆包 1.8 的模型兼容性做的也很出色。
这两年,大家也听过了不少能通过命令行来直接控制你的电脑的 AI 工具。
这些工具好不好用,往往取决于两个方面,一个是工具本身的任务拆解,项目分析,顺序执行的工程能力,另一个则是这个工具背后调用的模型本身的硬实力。
两者同步率高,那就是 100% best match,发挥出 1 + 1 > 2 的实力,两者要是配合的不好,那就开始拖后腿了。
而豆包这边,对不同 Agent 框架的适应性都不错。在报告中可以看到,它在 Trae、Claude Code、OpenHands 这些完全不同的框架下,代码通过率都能稳定在 64.8% 到 72.9% 之间 ,这说明豆包这边不挑工作环境,在哪都猛猛能干活。
![]()
最后,世超感觉在未来,随着模型基础能力的越来越强,各家 AI 大厂在研究 AI 道路上的不断深入。
顶级模型之间的差异,也可能越来越明显,各个都偏那么一点点科。
每家公司对AI开发的理解不同,会让他们做出来的模型也各有各的风味。
比如 Anthropic,认为代码即智能,只要让 AI 写出足够强的代码,那就能达到 AGI。
DeepSeek 则是认为数学即智能,只要让 AI 能解出复杂的数学题,那就能达到 AGI。
谷歌则是认为理解即智能,只要让 AI 能够理解各种图片和文字之间的位置关系,画出好看的界面,那就可以达到 AGI。
而豆包解题思路,现在看起来很明确了。
![]()
Agent 即智能。
模型能力越强,模型越能帮我们操纵现实世界中的互联网,就越能接近 AGI。
另外今天在豆包大模型的发布会上,世超还看到个离谱的数据。
现在豆包大模型的日均使用量,都能给干到 50 万亿tokens了,对比去年刚发布的时候,翻了整整 417 倍。
![]()
有点离谱,只能说这两年来,AI 发展的实在是太快了。
各行业各业多少都要沾点 AI 的边。
大家对 AI 的需求也越来越大,还真的蛮需要一个能好好干活的 AI 的。
条条大路通罗马。未来究竟是谁定义的路径能率先触碰 AGI 的圣杯?
咱们只能说,拭目以待。
撰文:早起
编辑:江江 & 面线
美编:焕妍
图片、资料来源:
AI画不出左手,是因为我们给了它一个偏科的童年 - 数字生命卡兹克
Seed1.8 Model Card: Towards Generalized Real-World Agency
https://github.com/bytedance/UI-TARS-desktop
![]()
![]()





京公网安备 11011402013531号