当前位置: 首页 » 资讯 » 新科技 » 正文

豆包P图凭SeedEdit 3.0实现智能修图,让人人都是P图大师

IP属地 中国·北京 编辑:苏婉清 DeepTech深科技 时间:2025-08-01 00:14:26

大多数新人在结婚前,都想拍一组好看的婚纱照留念。可是,拍照容易,后期修图却不简单。专业修图师报价昂贵,自己修图费时费力还可能不满意,怎么办?豆包P图的出现,能够很好地解决这一问题。如下面的视频所示,笔者先在豆包P图里上传了一张AI生成的婚纱照,输入“让女生脸部更加精致立体,并适当放大眼睛”的指令,很快得到一张符合要求的图片。而后,又输入“把场景换成秋天,女生婚纱换成粉色”的指令,豆包既能出色地完成任务,又能保持女生面部和体型上的特征。最后,输入“让图片整体更加有质感”的指令,笔者成功得到一张高质量成品图。显然,凭借强大的图像编辑能力,普通用户也能轻松修出理想图片。其背后,离不开豆包・图像编辑模型 3.0(SeedEdit 3.0)提供的技术支撑。


实测豆包P图功能

2025年7月30日,火山引擎主办FORCE link AI创新巡展·厦门站活动。会上,发布豆包系列新模型和AI云原生服务升级成果,包括豆包·图像编辑模型3.0、同声传译模型2.0,以及全新升级的豆包大模型1.6系列,同时推出扣子核心能力开源、企业自有模型托管方案等多款工具,为企业及开发者构建Agent、落地AI应用提供全栈支持。

发布豆包·图像编辑模型3.0等多款大模型,完成豆包大模型1.6系列新升级

火山引擎推出豆包·图像编辑模型3.0,主要是为解决AI图像编辑中听不懂指令、误改内容和生成效果差的痛点。该模型面向指令遵循、图像保持和图像质量三方面进行优化,让用户仅用自然语言就能完成替换元素、消除冗余、风格转换等操作,可在影像创作、广告营销等领域得到广泛应用,助力解锁更多创新场景。据了解,目前个人用户可在豆包APP和即梦中体验该模型,企业用户可在火山方舟调用其应用程序编程接口(API,Application Programming Interface)。

豆包·同声传译模型1.0自去年9月发布以来便广受认可,但在服务过程中,还面临时间延迟和声音复刻两大有待解决的问题。对此,本次会议上,火山引擎推出豆包·同声传译模型2.0(Seed-LiveInterpret 2.0),将语音延迟从8-10秒降至2-3秒,实现文本与语音同步生成,且支持0样本声音复刻,无需提前录制即可实时生成同音色外语语音,甚至匹配方言口音。实测该模型时,笔者朗读了一段来自人民日报的文章,发现该模型能清楚地识别笔者的音色,并快速地将中文同传为英文。


实测豆包·同声传译模型2.0

会上,该公司发布并开源了豆包最新翻译模型Doubao-Seed-Translation。其支持28种语言,能实现26种小语种与中英文的高质量互译。无论是科技领域的专业术语,还是生物医药、金融法律等场景下的复杂文本,该模型都能精准地把握语境,提供高质量的翻译结果。

另外,豆包大模型1.6系列也迎来新升级。

首先,极速版Doubao-Seed-1.6-flash模型具备强大的视觉理解能力,代码、推理、数学等能力也进一步强化,可在商超、工厂、家居等行业发挥重要作用。测评时,笔者上传了一张饮品店的图片,要求模型回答“店内员工是否正确佩戴口罩,奶茶桶是否被摆放在正确的位置”,模型很快便给出正确判断。


实测Doubao-Seed-1.6-flash模型视觉理解能力

其次,全模态向量化模型Seed1.6-Embedding也有三大升级。第一,效果全面领先。在延续上一代图文检索优势的基础上,进一步增强图文理解能力。第二,在语义匹配等通用向量化任务中表现良好,跨任务泛化能力更强,首次实现“文本+图像+视频”混合模态融合检索。第三,自定义指令能力全面升级,向量生成更贴合各类业务需求。

最后,新版Doubao-1.6-thinking,则在代码、推理和视觉理解等能力上实现大幅优化。

优化AI云原生全栈服务,为加速Agent落地提供全链路技术支持

为帮助企业在AI时代更好地构建Agent,火山引擎持续优化AI云原生全栈服务,为AI原生应用提供全链路技术支持。

在本次大会上,AI Agent开发平台扣子核心能力正式开源,覆盖扣子开发平台(Coze Studio)和扣子罗盘(Coze Loop),采用Apache 2.0许可证。

“开源仅三天,Coze Studio星标数破万,Coze Loop星标数超3000。火山引擎为其提供全面支持,企业AI平台HiAgent可调用其能力,云基础产品支持一键部署。”火山引擎总裁谭待表示。


图丨谭待(资料图)

针对有模型定制化需求的企业客户,依托火山方舟模型单元推出自有模型托管方案。企业无需运维底层GPU资源及复杂配置,即可实现自研模型全托管。此外,通过火山方舟的弹性模型单元,企业还可自主选择部署方式与机型,精准控制时延,且无需为业务低谷期付费。

为促进多模态API的开发者统一,火山引擎升级火山方舟平台的API开发体系,推出新的Responses API。该API具备原生上下文管理能力,不仅支持多轮对话链式管理及文本、图像等多模态数据衔接,还支持用户单次请求联动多工具与模型组合响应,让智能助手Agent开发从460行代码缩减至60行代码,帮助客户降本增效。

高性能云原生向量数据库VikingDB,也在全介质索引升级、更好的性价比和全模态表征能力等方面迎来升级,以该数据库为基础,火山引擎还打造了方便易用的知识库产品,支持图、文、视频多模态处理及混排输出。

提示词工程,是开发AI应用时必不可少的环节。“我们应该让Agent随着用户数据自发改进,就像所有成功的搜索引擎和推荐引擎那样,让Agent也找到自己的scaling law。”火山引擎智能算法负责人吴迪表示。

基于此,火山引擎升级智能提示词优化平台promptPilot,支持任意模型的提示词优化,通过与火山引擎知识库的深度融合,该平台在文本理解任务的生成、调试等环节中,能精准调用专业内容,帮助模型在垂直领域实现更深入、精准、可信的理解与输出。

另外,本次还发布了AI Agent人机协同工作台。“我们通过提供千人千面的画布形态,作为数字员工的交互入口,连接企业所有系统,让数字员工主动服务用户,解决企业效率瓶颈。”火山引擎副总裁张鑫表示。

同时,厦门大学信息与网络中心副主任郑海山,上台分享了厦门大学Agent上岗案例,该校联合火山引擎构建专有智能体开发基座,结合学校自有知识库形成的智能底座,支撑学校管理决策与教学科研。

最后,ServingKit、AgentKit和TrainingKit这三款AI开发工具包也完成新升级。

“ServingKit为推理服务和推理引擎提供更有性价比的底层支持能力,包括模型部署与分发加速、全链路透明运维可观测能力等。”火山引擎云基础产品负责人罗浩解释道。

而另外两款工具,前者新增了Coze Studio托管服务、扩展插件与模型调用,并优化了Computer Use性能,后者优化预训练性能,支持大规模集群线性加速。

基于火山引擎提供的工具,游戏企业网龙开展了多方面探索。据网龙天晴AI平台技术负责人黄继峰分享,该公司训练了高智能MOBA人机陪玩智能体,接入豆包 1.6 多模态模型,探索了更多游戏新玩法与内容生成。

回看本次大会,围绕大模型和AI云原生服务,火山引擎发布并升级了诸多产品,进一步完善了公司AI生态布局。基于此,该公司的目标是,致力于为企业与开发者提供从基础模型到开发工具的全链条技术支持,加速AI在各行业快速落地。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。