时隔一个多月,字节豆包大模型再度“上新”。
7月31日消息,字节跳动旗下云和AI服务平台火山引擎于30日发布全新的豆包·图像编辑模型3.0、豆包·同声传译模型2.0,豆包大模型1.6系列升级版等产品。
同时,面向Agent智能体开发和落地,火山引擎持续优化AI云原生全栈服务,并发布企业自有模型托管方案、Responses API等多个模型服务和工具产品,并利用Agent技术提供数字员工解决方案。
火山引擎总裁谭待表示,截至今年5月,豆包大模型日均tokens使用量超过16.4万亿,较去年5月首次发布(1200亿)时增长137倍。据IDC报告,豆包大模型在中国公有云大模型服务调用量上位居第一,占比达46.4%。
“过去几年,大家提到AI最直接的感受就是速度,每天AI领域都发布很多新的创新技术。”谭待称,大模型能力的不断提升,正是当前技术大变革的缩影。我们正处于PC到移动、再到AI的三个“时代”变化当中,主体从网站、App,到如今的AI Agent智能体,让软件第一次从被动的工具变成了主动的执行者。
火山引擎总裁谭待
据悉,过去一年,豆包大模型全面加速技术迭代、应用场景拓展和商业化落地。
今年6月,豆包大模型升级为1.6版,同时发布了豆包·视频生成模型Seedance 1.0 pro、豆包・语音播客模型等新模型。
应用场景拓展和商业化层面,随着生成式AI产业已经从“百模大战”,转向通过AI Agent智能化实现商业落地,AI正从“工具”升级为“助手”,甚至“代理人”。因此,如何将大模型能力转化为具备商业价值的应用,已经成为企业发展的关键要素。
据IDC发布的《中国公有云大模型服务市场格局分析,2025年一季度》报告显示,2024年,中国公有云大模型调用量达114.2万亿tokens。按照大模型调用量的市场份额来看,火山引擎独占46.4%的市场份额,位列第一,超过百度智能云(19.3%)和阿里云(19.3%)的总和。其余的15%则由腾讯云、移动云、天翼云等其他厂商获得。
有消息称,火山引擎2024年营收超过120亿,2025年营收目标翻倍超过250亿元,预计将超越百度云年营收水平。
今年6月谭待透露,8-10年(2030年左右),只要世界和平,经济发展,火山引擎或将达到年收入1000亿元。“马拉松刚跑了500米,未来市场空间最少会扩大100倍,火山会持续保持国内 AI 第一。”
此次,火山引擎团队加速技术迭代,发布一系列产品和服务。
其中,全新豆包·图像编辑模型3.0(SeedEdit 3.0)。该模型通过强化指令遵循能力、图像保持能力及生成质量,让用户仅凭自然语言即可完成消除冗余、调整光影、替换元素等操作,还能实现风格转换、材质变换、姿势调整等创新修图场景,从而广泛适用于影像创作、广告营销等领域,企业用户可在火山方舟调用其API,个人用户则能通过即梦或豆包app体验。
豆包·同声传译模型2.0。采用全双工框架,将语音延迟从8-10秒降至2-3秒,较传统系统降低超60%,实现文本与语音同步生成。更支持0样本声音复刻,无需提前录制即可实时生成同音色外语语音。
豆包大模型1.6系列全面升级。其中,极速版Doubao-Seed-1.6-flash模型在强视觉理解能力外,还强化了代码、推理、数学等语言模型能力,以更全模型能力,更快速度和更低成本,适配智能巡检、手机助手等大规模商业化场景,该模型首Token输出时间(PerToken延迟)低至10ms,为业界领先;成本上,在0-32k输入文本长度区间(企业最常用),每百万tokens输入仅0.15元、输出1.5元,在客户使用案例中,已实现延迟下降60%、成本降低70%;而全模态向量化模型Seed 1.6-Embedding首次实现“文本+图像+视频”混合模态融合检索,在图片模态MMEB_v2 Image 榜单中领先第二名5.6分,超过Qwen2 7B等模型。
AI Agent开发平台扣子核心能力正式开源,涵盖一站式可视化开发工具扣子开发平台(Coze Studio),和全链路管理工具扣子罗盘(Coze Loop)。开源仅三天,Coze Studio星标数破万,Coze Loop星标数超3000。
火山方舟升级API体系,推出Responses API。该API具备原生上下文管理能力,支持多轮对话链式管理及文本、图像等多模态数据衔接,结合缓存能力可降低80%成本;还支持单次请求联动多工具与模型组合响应,将智能助手Agent开发从460行代码、1-2天,缩减至60行代码、1小时,大幅提升效率。
同时,随着扣子核心能力开源,火山引擎对大模型RLHF训练框架veRL、Coze Studio、Coze Loop、分布式操作系统KubeWharf、DeepResearch开源项目Deerflow等多个技术栈进行开源。
谭待表示,未来,火山引擎会持续开源更多的高质量项目,帮助企业做好产品设计,助力开发者AI创新,为共建繁荣开源生态贡献自己的力量。
此外,值得一提的是,火山引擎还公布了数字员工交互入口——HiAgent一站式智能体工作台,包括千人千面的工作画布形态,更高效的日常工作模式,更灵活的多人协作、人机协作模式,从而实现AI时代“混合组织”的高效协同工作台。
火山引擎副总裁张鑫表示,很多人上班的一天日常是执行代办、开会、数据处理、会议纪要等,整个过程会面临内容、执行流程等问题。如果从系统工程角度看,这暴露了企业效率的三个瓶颈:第一、大量的工时被这种规则性任务所消耗;第二、系统来回切换,导致上下文中断;第三、信息的孤岛制约了决策的效率。因此,HiAgent作为企业一站式智能体工作台,希望通过帮企业源源不断派遣“数字员工”,拓展人类服务边界和认知边界,从而解决上述问题。
具体来说,HiAgent数字员工提供千人千面的画布形态作为数字员工的交互入口,销售人员看到的是客户管理的看板,而HR看到的则是招聘助手和绩效管理助手,让每个人的工作台都在自己的需求方向上。另外,通过画布连接企业所有的系统,让“数字员工”充当中转站,搞定所有流程,从而让人可以专注在自己的目标上。
“在整个智能体的生命周期里,如何让‘数字员工’变得越来越聪明。一个关键词就叫做干中学,并且让数据支撑贯穿始终。”张鑫称,整个过程中,企业要通过数据支持的反馈和考核,来帮助数字员工边干、边学、变聪明。而对于企业来说,一个数字员工好不好用,并不是入职即巅峰,而是要越用越懂你。
目前,HiAgent数字员工方案已经开始落地。例如,广交数科基于HiAgent平台打造AI数字员工平台解决方案,覆盖车辆维修、公交广告、经济运行分析等场景,支撑企业快速实现AI 转型、管理变革和竞争力重塑;厦门大学基于HiAgent平台打造厦门大学招生咨询助手 “厦小招”,为考生及家长提供招生政策解读、 专业特色介绍、校园生活咨询、录取流程指导等一站式咨询服务,支撑招生咨询效率提升与考生服务体验优化等。
实际上,尽管“数字员工”这一理念提出了很多年,之前也有很多初创公司进行研发和提供解决方案,但如今,火山引擎的加入,将加速“数字员工”领域的商业落地。
那么,现在AI不仅可以帮我写内容、剪辑视频、生成图片,甚至机器人、数字人可以替代我说话,而如今,“数字员工”的落地,已经让我感受到了浓浓的危机感。
据了解,目前豆包团队依然在发力全模态模型,并且豆包同声传译模型即将在8月上线到Ola Friend耳机当中。
谭待认为,云计算行业的第一次浪潮是在线化,在线化积累了很多数据,但这些数据价值可能只发挥了1%到5%。第二次浪潮是智能化,智能化不只能发挥出数据的价值,还能端到端地做很多事,包括MaaS(模型即服务)、AI Agent(智能体),而在智能化的浪潮下,大家都在同一条起跑线上,都要使劲跑。“我的要求是不能有短板,因为云计算的客户很多元,行业差异很大。当然智能化的事情,比如豆包大模型、AI云原生要做得更好。”
谭待强调,火山引擎希望用更好的技术和产品,持续帮助企业和开发者,在AI时代不断创新、加速发展。(本文首发于钛媒体App,作者|林志佳,编辑|盖虹达)