当前位置：首页 » 资讯 » 新科技 » 正文

豆包多模态跻身全球第一梯队，以“理解与创造”推开AI规模化应用大门

IP属地中国·北京 文汇报 时间：2025-12-23 16:15:23

AI浪潮席卷全球。大模型的发展，已从单点突破进入全面竞速与深度融合的新阶段。
2025年年末，国内外互联网大厂纷纷迭代了多模态大模型。在FORCE原动力大会上，火山引擎一口气更新了多个版本，豆包1.8在多模态深度理解与智能体（Agent）能力上树立标杆，Seedance 1.5 pro则在音视频生成领域实现飞跃。同一天，谷歌发布了Gemini3的FLASH版本，OpenAI则刚刚收到一笔来自迪士尼的10亿美元投资……大模型的竞争，变成以日为计数单位。
与年初相比，竞争又变得完全不同，无论是国内的豆包、千问，还是国外的Gemini3、OpenAI，都聚焦于多模态能力——即模型对文本、图像、音频、视频等多元信息的统一理解与生成能力，它被视为解锁下一代AI应用、实现通用人工智能（AGI）愿景的关键阶梯。在这条“多模态”综合竞赛的关键赛道上，中国力量正强势崛起。权威评测显示，豆包大模型家族在多模态理解、生成能力及Agent（智能体）能力上，已稳居全球第一梯队。这些技术突破以前所未有的规模和速度融入千行百业，驱动从技术能力到产业生态的深刻变革。
“理解世界”能力跃迁
衡量AI发展速度的核心指标是什么？在火山引擎总裁谭待看来，答案很简单——Tokens调用量。“模型只有被调用才能发挥价值；而越有价值的模型，调用量就会越多。”他说，截至今年12月，豆包大模型日均调用量已突破50万亿Tokens，自发布至今实现了417倍的爆炸式增长，相比去年同期也增长了超过10倍。

“这不仅是火山引擎的速度，更代表了AI行业的加速发展。”谭待说。
飞速增长的调用量背后，是模型能力质的飞跃，尤其是多模态理解能力的突破。谭待介绍，本次发布的豆包大模型1.8，在设计伊始就面向复杂的多模态Agent场景进行了定向优化。得益于这一目标，其在视觉理解上有显著升级，单次视频理解帧数从640帧倍增至1280帧，并创新性地支持“低帧率扫视全局+高帧率聚焦关键”的协同理解模式。
这意味着什么？现场一个生动的案例足以说明问题。面对一段长达1小时4分钟的监控录像，用户可以直接将其抛给豆包1.8。模型会先以低帧率快速“浏览”完整个视频，初步锁定可疑时段，随后自动调用“Video Cut”工具，对关键片段进行高帧率的“仔细审视”，最终精准定位到肇事车辆及事故发生的准确时间。
这代表大模型“理解世界”的能力有了显著跃升。谭待介绍，豆包1.8在视觉判断准确性、空间理解、文档解析、视频运动识别能力上已超越 Gemini 3，展现出全球领先的竞争力。
“多模态其实代表着模型的应用进入更深的领域。”他表示，与去年相比，模型已经能解决非常多问题了，模型的进化速度非常快的，正在不断解锁新领域、催生新爆发。以这种“理解世界”的能力为例，它可以直接应用于安防巡检、在线教育内容分析、工业生产线实时质检等复杂场景。
“创造世界”生产加速
如果说“理解”是AI感知世界的基础，那么“创造”则是AI赋能价值的升华。在视频内容需求呈指数级增长的当下，火山引擎推出的Seedance 1.5 Pro音视频创作模型，试图重塑AI视频的生产范式。
记者注意到，与上一代相比，Seedance 1.5 Pro最大的突破在于采用了原生音视频联合生成架构，实现了“音画同出”的毫秒级“神同步”。在对白上，模型可实现多人多语言对话，更覆盖了中文方言、英文及多种而且小语种，为全球化、本地化的内容创作打开了想象空间。分析人士认为，这一技术攻克了长期困扰AI视频生成的“声画两张皮”难题，极大地提升了内容的真实感与沉浸感。
Seedance 1.5 Pro对叙事与情感张力的驾驭能力也显著提升。据悉，模型具备了电影级的自发运镜能力，可自动实现长镜头跟随、希区柯克式变焦等高级技巧，并精准捕捉人物微妙的情绪变化。
另一方面，强大的生成能力带来了新的挑战。此前不少用户反馈，AI生成视频的过程犹如“抽盲盒”，创作者需要反复尝试才能获得满意结果。为此，Seedance团队创新性地提出了“Draft样片”功能。模型可首先生成低分辨率但关键要素与成片高度一致的视频草稿，供创作者快速验证创意。数据显示，这一功能能将整体创作效率提升65%，减少60%的无效创作成本，将AI从“炫技工具”转变为实用的“生产力伙伴”。
随着豆包1.8的深度理解、Seedance 1.5 Pro的影视级生成的发布，至此，火山引擎的“豆包大模型家族”全景图正缓缓铺开，涵盖了图像、视频、语音、语义及多模态深度思考模型，构成了一个从感知、理解到决策、创造的完整能力闭环。
“赋能世界”产业落地
技术的领先，最终要体现在推动产业进步的深度与广度上。火山引擎智能算法负责人吴迪判断认为，随着大模型智能水平的不断提升，智能体正逐渐进入企业的核心业务：“可以预见在未来的两三年内，智能体会带来巨大的生产力提升。”
“我们正处于从PC、移动到AI这三个时代的变化之中。技术主体发生了重大变化，PC时代的主体是web，移动时代是APP，而AI时代则是Agent。”谭待观察认为，与前两者不同，Agent能够自主地感知、规划和执行复杂任务，“软件第一次从被动的工具，变成主动的执行者。”
能看到的是，豆包大模型的多模态能力，正成为构建这些“主动执行者”的核心引擎。在智能终端这一前沿阵地，全球Top10手机厂商中，有9家与火山引擎开展了深度合作，将大模型应用于更智能的语音助手、更强大的创作工具和更极致的效率提升中。
代表高端制造与消费的汽车行业，或是更有标杆意义的产业落地。“我们与火山引擎合作，将豆包大模型深度融合Dilink系统，实现了语音交互、内容推荐与出行服务的无缝连接。从联合开发到上车落地，仅用了4个多月。”比亚迪集团高级副总裁杨冬生介绍，高效落地的背后，是豆包大模型强大且易用的多模态能力在支撑。
根据IDC报告，火山引擎在中国公有云大模型服务调用量上稳居第一，市场份额从2024年的46.4%进一步提升至2025年的49.2%。这意味着，中国公有云上每两个Tokens中就有一个由火山引擎生产。在Gartner的全球AI应用开发平台魔力象限中，火山引擎更位列挑战者首位，位居中国第一。
可以说，豆包大模型的发展轨迹清晰地勾勒出中国AI产业从追赶到并跑、在部分领域实现领先的奋进之路。
面向未来，AI大模型的价值在哪里？谭待也给出了自己的观点：“我觉得模型最大的价值肯定不是去写点打油诗，生产一些合成的照片，而是更好地帮人成长，教育、医疗，做新的科研，我觉得这个是大家对AI最大的期许。”

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

中国“Token出海”，极致性价比碾压美国模型，不止是电价便宜

词元经济为何突然“出圈”？释放哪些信号？

瞄准“数十亿”视力矫正人群，Meta被曝将发布新款雷朋智能眼镜

全球存储芯片短缺，索尼宣布暂停CFexpress及SD卡订单

美股全线大跌，芯片股普跌，微软较高点跌34%，国际油价大涨7%，伊朗考虑退出不扩散核武器条约

AI“盗”走了我的声音，该如何维权？

全站最新

中国“Token出海”，极致性价比碾压美国模型，不止是电价便宜

词元经济为何突然“出圈”？释放哪些信号？

瞄准“数十亿”视力矫正人群，Meta被曝将发布新款雷朋智能眼镜

全球存储芯片短缺，索尼宣布暂停CFexpress及SD卡订单

热门推荐

三大运营商算力收入提升全面转向以Token服务为经营主线

一场围绕“龙虾”的对话，道出AI发展关键变量

中国“Token出海”，极致性价比碾压美国模型，不止是电价便宜

词元经济为何突然“出圈”？释放哪些信号？

英媒：从餐厅到“密室逃脱”门店再到电动汽车……看中企如何影响印尼人生活

瞄准“数十亿”视力矫正人群，Meta被曝将发布新款雷朋智能眼镜

全球存储芯片短缺，索尼宣布暂停CFexpress及SD卡订单

美股全线大跌，芯片股普跌，微软较高点跌34%，国际油价大涨7%，伊朗考虑退出不扩散核武器条约

AI“盗”走了我的声音，该如何维权？

距离钢琴家指尖仅几英寸！Vision Pro推出BBC音乐会沉浸式视频

2026中国网络媒体论坛正能量创作者大会即将召开

苹果iOS 27版Siri前瞻：重塑底层、升级聊天互动、实现屏幕感知

美股全线大跌，芯片股普跌，微软较高点跌34%，国际油价大涨7%

国安部披露：某企业员工使用搜索引擎时，不慎进入境外黑客“精心制作”的虚假页面，下载并运行了带有恶意程序的软件，导致敏感数据被窃取

那些悄悄“上位”的链接