![]()
![]()
AI浪潮席卷全球。大模型的发展,已从单点突破进入全面竞速与深度融合的新阶段。
2025年年末,国内外互联网大厂纷纷迭代了多模态大模型。在FORCE原动力大会上,火山引擎一口气更新了多个版本,豆包1.8在多模态深度理解与智能体(Agent)能力上树立标杆,Seedance 1.5 pro则在音视频生成领域实现飞跃。同一天,谷歌发布了Gemini3的FLASH版本,OpenAI则刚刚收到一笔来自迪士尼的10亿美元投资……大模型的竞争,变成以日为计数单位。
与年初相比,竞争又变得完全不同,无论是国内的豆包、千问,还是国外的Gemini3、OpenAI,都聚焦于多模态能力——即模型对文本、图像、音频、视频等多元信息的统一理解与生成能力,它被视为解锁下一代AI应用、实现通用人工智能(AGI)愿景的关键阶梯。在这条“多模态”综合竞赛的关键赛道上,中国力量正强势崛起。权威评测显示,豆包大模型家族在多模态理解、生成能力及Agent(智能体)能力上,已稳居全球第一梯队。这些技术突破以前所未有的规模和速度融入千行百业,驱动从技术能力到产业生态的深刻变革。
“理解世界”能力跃迁
衡量AI发展速度的核心指标是什么?在火山引擎总裁谭待看来,答案很简单——Tokens调用量。“模型只有被调用才能发挥价值;而越有价值的模型,调用量就会越多。”他说,截至今年12月,豆包大模型日均调用量已突破50万亿Tokens,自发布至今实现了417倍的爆炸式增长,相比去年同期也增长了超过10倍。
![]()
“这不仅是火山引擎的速度,更代表了AI行业的加速发展。”谭待说。
飞速增长的调用量背后,是模型能力质的飞跃,尤其是多模态理解能力的突破。谭待介绍,本次发布的豆包大模型1.8,在设计伊始就面向复杂的多模态Agent场景进行了定向优化。得益于这一目标,其在视觉理解上有显著升级,单次视频理解帧数从640帧倍增至1280帧,并创新性地支持“低帧率扫视全局+高帧率聚焦关键”的协同理解模式。
这意味着什么?现场一个生动的案例足以说明问题。面对一段长达1小时4分钟的监控录像,用户可以直接将其抛给豆包1.8。模型会先以低帧率快速“浏览”完整个视频,初步锁定可疑时段,随后自动调用“Video Cut”工具,对关键片段进行高帧率的“仔细审视”,最终精准定位到肇事车辆及事故发生的准确时间。
这代表大模型“理解世界”的能力有了显著跃升。谭待介绍,豆包1.8在视觉判断准确性、空间理解、文档解析、视频运动识别能力上已超越 Gemini 3,展现出全球领先的竞争力。
“多模态其实代表着模型的应用进入更深的领域。”他表示,与去年相比,模型已经能解决非常多问题了,模型的进化速度非常快的,正在不断解锁新领域、催生新爆发。以这种“理解世界”的能力为例,它可以直接应用于安防巡检、在线教育内容分析、工业生产线实时质检等复杂场景。
“创造世界”生产加速
如果说“理解”是AI感知世界的基础,那么“创造”则是AI赋能价值的升华。在视频内容需求呈指数级增长的当下,火山引擎推出的Seedance 1.5 Pro音视频创作模型,试图重塑AI视频的生产范式。
记者注意到,与上一代相比,Seedance 1.5 Pro最大的突破在于采用了原生音视频联合生成架构,实现了“音画同出”的毫秒级“神同步”。在对白上,模型可实现多人多语言对话,更覆盖了中文方言、英文及多种而且小语种,为全球化、本地化的内容创作打开了想象空间。分析人士认为,这一技术攻克了长期困扰AI视频生成的“声画两张皮”难题,极大地提升了内容的真实感与沉浸感。
Seedance 1.5 Pro对叙事与情感张力的驾驭能力也显著提升。据悉,模型具备了电影级的自发运镜能力,可自动实现长镜头跟随、希区柯克式变焦等高级技巧,并精准捕捉人物微妙的情绪变化。
另一方面,强大的生成能力带来了新的挑战。此前不少用户反馈,AI生成视频的过程犹如“抽盲盒”,创作者需要反复尝试才能获得满意结果。为此,Seedance团队创新性地提出了“Draft样片”功能。模型可首先生成低分辨率但关键要素与成片高度一致的视频草稿,供创作者快速验证创意。数据显示,这一功能能将整体创作效率提升65%,减少60%的无效创作成本,将AI从“炫技工具”转变为实用的“生产力伙伴”。
随着豆包1.8的深度理解、Seedance 1.5 Pro的影视级生成的发布,至此,火山引擎的“豆包大模型家族”全景图正缓缓铺开,涵盖了图像、视频、语音、语义及多模态深度思考模型,构成了一个从感知、理解到决策、创造的完整能力闭环。
“赋能世界”产业落地
技术的领先,最终要体现在推动产业进步的深度与广度上。火山引擎智能算法负责人吴迪判断认为,随着大模型智能水平的不断提升,智能体正逐渐进入企业的核心业务:“可以预见在未来的两三年内,智能体会带来巨大的生产力提升。”
“我们正处于从PC、移动到AI这三个时代的变化之中。技术主体发生了重大变化,PC时代的主体是web,移动时代是APP,而AI时代则是Agent。”谭待观察认为,与前两者不同,Agent能够自主地感知、规划和执行复杂任务,“软件第一次从被动的工具,变成主动的执行者。”
能看到的是,豆包大模型的多模态能力,正成为构建这些“主动执行者”的核心引擎。在智能终端这一前沿阵地,全球Top10手机厂商中,有9家与火山引擎开展了深度合作,将大模型应用于更智能的语音助手、更强大的创作工具和更极致的效率提升中。
代表高端制造与消费的汽车行业,或是更有标杆意义的产业落地。“我们与火山引擎合作,将豆包大模型深度融合Dilink系统,实现了语音交互、内容推荐与出行服务的无缝连接。从联合开发到上车落地,仅用了4个多月。”比亚迪集团高级副总裁杨冬生介绍,高效落地的背后,是豆包大模型强大且易用的多模态能力在支撑。
根据IDC报告,火山引擎在中国公有云大模型服务调用量上稳居第一,市场份额从2024年的46.4%进一步提升至2025年的49.2%。这意味着,中国公有云上每两个Tokens中就有一个由火山引擎生产。在Gartner的全球AI应用开发平台魔力象限中,火山引擎更位列挑战者首位,位居中国第一。
可以说,豆包大模型的发展轨迹清晰地勾勒出中国AI产业从追赶到并跑、在部分领域实现领先的奋进之路。
面向未来,AI大模型的价值在哪里?谭待也给出了自己的观点:“我觉得模型最大的价值肯定不是去写点打油诗,生产一些合成的照片,而是更好地帮人成长,教育、医疗,做新的科研,我觉得这个是大家对AI最大的期许。”





京公网安备 11011402013531号