当前位置：首页 » 资讯 » 新科技 » 正文

豆包发布语音识别模型2.0，支持多模态视觉识别和13种海外语种识别

IP属地中国·北京 编辑：吴婷凤凰网科技 时间：2025-12-05 18:10:32

12月5日，火山引擎正式发布豆包语音识别模型2.0（Doubao-Seed-ASR-2.0），依托Seed混合专家大语言模型架构构建。
据官方介绍，2.0版本模型推理能力提升，可以通过深度理解上下文完成精准识别，上下文整体关键词召回率提升20%。支持多模态视觉识别，在听得懂的同时看得懂，可以通过单图和多图等视觉信息输入提升文字识别精准度。
支持日语、韩语、德语、法语等13种海外语种的识别。并且重点针对专有名词、人名、地名、品牌名称及易混淆多音字等复杂场景进行了升级。

标签：模型豆包语音视觉名称精准整体语种韩语德语日语 多音字 模态重点 专有名词 地名文字品牌架构版本法语 精准度 语言专家深度 关键词 引擎信息场景官方科技凤凰

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

新能源汽车静默革命：从轰鸣到低语，聆听未来的声音图景

CJ2026京东展区大揭秘：新潮数码与前沿科技共筑玩家乐园

韩寒出任荣耀影像创想家荣耀Robot Phone发布会定档8月12日

小米VS华为！澎程新车对标问界，智界RX盯上小米YU7

出走米哈游1000多天后，蔡浩宇的AI远征“撞墙”

华为深圳场景化解决方案发布，破解“模型强、场景弱”难题

全站最新

新能源汽车静默革命：从轰鸣到低语，聆听未来的声音图景

CJ2026京东展区大揭秘：新潮数码与前沿科技共筑玩家乐园

韩寒出任荣耀影像创想家荣耀Robot Phone发布会定档8月12日

三菱全新帕杰罗或9月2日发布，外观、动力等细节抢先看！

热门推荐

国产机器人产业加速出海，国内现存相关企业超115万家

国产机器人产业加速出海，国内现存相关企业超115万家

字节跳动Seedance 2.5发布：视频创作升级，支持30秒生成与多素材参考

2026年Q2全球智能手机出货量降6%：三星苹果领涨，小米等厂商承压

植物无大脑却能“对话”“预言”？重新认识地球生命信息网络中的它们

2026年7月手机圈大事件：苹果基带混用红米新机将至小米份额上升 OPPO新机万元起

消息称OPPO或推6.3-6.4英寸阔直屏新机预计与Ultra同档明年亮相

谷歌DeepMind再发力：新一代机器人AI模型攻克全身控制与灵巧操作难题

谷歌Gemini Robotics 2发布：单模型驱动全身自由度，开启机器人通用智能新篇

字节跳动Seedance 2.5发布：30秒生成高质量视频，优化连贯性还去“油腻感”

AI浪潮下企业变革：字节飞书调整，豆包成新增长引擎接棒前行

模型激战正酣，亚马逊云科技另辟蹊径率先收获AI商业硕果

字节跳动Seedance 2.5发布：视频时长延长至30秒，创作能力全面升级

B站运营“社区派”代表林航离职曾为即刻社区风格奠基人

谷歌推出三AI模型助力机器人进化：全身智控、多机协作，解锁多样任务新场景