在模型能力趋同的当下,真正的竞争壁垒是什么?
科大讯飞交出最新答卷:让AI更懂你。
怎么个更懂你?抛开相关定义不说(下文揭晓),在第八届世界声博会暨2025科大讯飞全球1024开发者节现场,我们看到了两个非常直观的例子:
这不,人刚踏进展馆还不知道看啥,门口的多模态超拟人“小飞老师”就来帮你划重点了,而且还能帮忙推荐合肥的特色景点和美食等。
(小飞老师)我觉得这次展会上最值得关注的是讯飞星火大模型的全新升级……
![]()
视频链接:https://mp.weixin.qq.com/s/FcyHqy6D9q_T7FgeI2QogA
而当你逛完展想发个朋友圈,科大讯飞AI也知道如何让你脱颖而出了(doge)。
仅需一句话,其「百变声音复刻」功能就能让你轻松掌握日英法等多国语言,以及天津话四川话等多地方言。
而且玩法多样,任意音色、任意风格都能解耦组合~
毫不夸张的说,对比真人提供的声音,这个功能泰强辣(连衣服和背景图也一并换了):
![]()
视频链接:https://mp.weixin.qq.com/s/FcyHqy6D9q_T7FgeI2QogA
看到这里想必你也感受到了,所谓的“更懂你”其实就是“需要的时候它在,不需要时则安静陪伴”——一种恰到好处的默契与懂得。
![]()
而这,正是科大讯飞为AI设定的新命题。在人类的成长、工作、沟通与生活四个维度中,AI应理解人类的不同追求。
也就是说,AI进化的方向不再只是变得更聪明,而是能真正“读懂你”。
为此,科大讯飞率先出击,进行了一系列硬核技术突围——
包括发布全新升级的讯飞星火深度推理大模型X1.5,以及在多模态交互、软硬一体化等方面取得关键进展。
值得注意的是,这些通通都是在国产算力平台上实现的,英伟达含量为0!
![]()
总之,透过这场发布会,我们已经能真切感受到:当一些厂商仍在“卷参数、卷规模”时,讯飞已率先驶向了“更懂你”的国产AI新赛道。
AI红利兑现时刻,已然开启。
讯飞星火X1.5,依旧全国产
正如发布会上所说,这几年大模型领域竞争如火如荼,比拼的就是规模和能力——谁的模型更大、更强、更聪明。
日新月异的新模型新版本、层出不穷的基准测试……技术至上、性能优先是AI起步阶段最鲜明的特征。
但随着技术门槛逐渐被拉平,AI行业掰手腕正在从单纯的能力battle转向吸引用户选择。于是长期深耕行业场景的讯飞率先提出了自己的应对之策:做更懂你的AI。
![]()
具体来说,就是在传统AI能听能说能算的基础上提出了更高要求,强调不仅要懂语言,更要懂情绪;懂任务,更要懂意图,让每个人的价值都能因为AI实现无限放大。
在技术力发展的同时,更注重技术与用户体验、场景落地的结合,比如:
教育:AI教师在传道授业解惑以外,还要理解每个人的学习潜力,提供因人而异的成长路径。工作:不只是执行命令,AI助手要理解每项工作的深层逻辑,还要会分解任务步骤、实时管理流程。对话:AI生活搭子要通过语气与语境,深入探索人类每句话背后的含义。生活:AI要成为你的专属家庭医生,全天候关注你的身体与生活规律,会主动提醒、守护与陪伴。
而这也是此次星火大模型升级的重中之重。
星火大模型作为讯飞AI架构的底层基石,按照惯例,每一次升级,都有着显著的能力跃迁。
全新发布的星火X1.5大模型,以全栈国产化技术为基础,带来了更强的逻辑推理和任务分解,理解力Max、能力Pro~
![]()
首先模型实现完全自主可控,一是算力自主,模型的训练和推理过程完全基于全国产算力平台,不依赖英伟达等海外GPU厂商;二是技术自主,整个模型框架均由讯飞自研,构建起特有的研发生态。
同时在技术层面突破国产算力的限制,攻克了长思维链强化学习算法的高效训练问题。
![]()
众所周知,大模型在回答复杂问题时很容易中途跑偏或逻辑断裂,而长思维链则让模型能够像人一样一步步拆解问题,从而让整个推理过程更连贯、稳定。
而且讯飞直接将深度推理训练效率从原来的25%提升至84%以上,这意味着模型推理更连贯、更能理解复杂任务,比如在星火X1.5上处理这样一个数学逻辑推理题:
prompt:一个外星人来到地球后,第1天有相等的可能选择以下四件事中的一件完成: 1、自我毁灭; 2、分裂成两个外星人; 3、分裂成三个外星人; 4、什么都不做。 此后每天,每个外星人均会做1次选择,且彼此之间相互独立,求地球上最终没有外星人的概率。
嘶,听起来头都大了……(最初只有OpenAI o1专业版才能做对)
![]()
结果星火X1.5唰唰唰就给出了解法:
![]()
视频链接:https://mp.weixin.qq.com/s/FcyHqy6D9q_T7FgeI2QogA
仔细看它的思考过程,每一步都与人类解题步骤吻合,不仅会告诉用户每一步是怎么来的,也会具体阐述为什么这么做,真正做到有理有据。
尤其在面对复杂任务时,星火X1.5能够动态调用最匹配的专家模型,输出更精准、更具逻辑性的结果。
而且要知道,这些可都是在国产算力下完成的!!!(重要的事情说三遍)
其次,星火X1.5全面升级六大核心能力——语言理解、文本生成、知识问答、逻辑推理、数学能力、代码能力,比肩国际一流大模型。
![]()
就以数学能力为例,专业评测基准轻松拿下,实际测试任务也是so easy:
与GPT-5 (high)、Gemini-2.5-Pro D、DeepSeek V3.2-Exp、Qwen3-235B-A22B等国内外主流模型同台竞技AIME 2025数学竞赛,星火X1.5直接登顶第一。
![]()
而这背后,正是星火X1.5在模型架构上的全面升级——采用MoE架构,并实现快慢统一思考。
模型总参数量为293B,比原来缩小一倍,推理激活可仅30B,而且只需要一台昇腾标配服务器就能部署,推理速度相比X1提升100%。
另外,发布会上还同步推出了全球首发的非自回归语音大模型架构。
相比同尺寸的自回归语言模型,语音识别效果可相对提升16%,推理成本下降520%。
![]()
这也就意味着讯飞在模型上的升级不仅仅是简单的参数堆叠或模型微调,而是在底层架构创新和训练机制上确实取得了实质性突破,才能影响推理效率大幅度阶跃提升。
星火X1.5还首次推出记忆功能,可从多次交互中累计理解用户的偏好与知识,自动筛选与提炼语义特征、动态地修正旧记忆、整理零散信息,从而生成更贴合用户习惯的回答。
支持130+种语言,整体性能可达到GPT-5的95%,全新升级2.0版本的星火语音同传大模型更是在国际数据公司(IDC)8项评测中均登顶行业第一。
可以说,以智能语音起家的科大讯飞,得天独厚的优势让它在大模型语言理解上卷到飞起。
而在理解之外,讯飞的另一场“交互”革新也在同步进行。
如果说大模型是AI的大脑,那么多模态交互就是它的感知系统,讯飞率先意识到,当二者融合,AI才能真正从语言智能走向世界智能。
毕竟“理解”只是起点,“共情”才是方向。
AI交互迈入“共情时代”
过去的AI交互,只拥有基础的语音识别和指令执行,比如当你对象说:
你走吧,走了就不要回来了。
机械的AI识别出指令并头也不回地走掉,Game Over……
![]()
这就是现在AI的通病,无法根据语气、表情或身体状态给出正确的回应,缺乏情绪感知,而讯飞要解决的,就是让AI像人一样读懂对象的言外之意(doge)。
而且一上来就挑战最高难度——多人、远场、高噪的复杂现实场景。
麦克风远场识别上,具备5米0dB远场高噪语音识别能力,在嘈杂环境中也能有强大的语音识别表现。在多人交互时,可以即时沟通、实时打断,不会被无关声音(如背景音或突然插入的咳嗽声)所影响,而且可以精准识别并回应每一位的交互。虚拟人形象也能根据交互对象的说话,完成视觉跟随,侧头给人更强的交互感,同时在语音合成效果上支持数十种副语言,语气也更灵活自然。能做到多个类型个性化特征的双向记忆管理,也能连续通过多轮的共情交互解析对方的情绪变化,给出更加贴心默契的回应。
简而言之,在多模态交互上,新升级的讯飞AI拥有更为强大的跨模态理解能力,不仅能听得准、听得懂,还能说得像、记得住,懂你所思、想你所想。
![]()
这标志着AI交互从冷冰冰的语音助手转向有温度的智能伙伴,真正从理解语音进化到理解人。
与此同时,这种交互能力也正在与讯飞的软硬件生态优势深度融合。
比如前面提及的远场听觉降噪,只靠算法是远远不够的,还需要麦克风阵列辅助;视觉方面,通过视觉摄像头实现3D视觉的物理世界感知。
再将视觉和听觉融合理解,这就是讯飞打造出的软硬一体的多模态交互系统。
![]()
在发布会现场,这种一体化趋势则更为明显,讯飞一箩筐的新品上线就是有力印证:
讯飞AI办公本
讯飞智能办公本X5首创上4下4环的八麦克风阵列,能够360度声源定位,高噪远场识别效果遥遥领先iPhone 17 Pro。
![]()
海外上市的AINOTE2更是机身薄如蝉翼,只有4.2mm。
什么概念呢?吉尼斯官方认证“全球最薄墨水屏平板”,大概两枚硬币的厚度。
这几乎是把能压缩的全压缩了,电池用的也是业界首屈一指的超薄高压电池,而续航能力也被延长到了超超超久的113天,是更适合牛马打工人的一款会议纪要神器嗷~
讯飞双屏翻译机2.0
新增强降噪模式能在一米以内智能聚焦说话者声音,就像在他周围建立了一个密不透风的隔音墙,外界纷纷扰扰,只有说话者的声音倏尔不动。(咳咳)
![]()
相比原来的1.0版本,尺寸更大、机身更薄、续航更久、内存更大、像素更好……还在原有的16大专业领域翻译的基础之上,新增了教育一栏,语音识别率高达98.69%,性价比满昏!
![]()
讯飞AI翻译耳机
首创单耳三麦多感融合降噪系统,可实现骨导和气导信号同时采集。
![]()
在地铁等极端嘈杂环境中仍然可以保持识别准确率高达97.1%,上班通勤好物又喜加一。
讯飞同传麦克风
可实现2秒低延迟语音播报、10种语言翻译实时切换,搭载110度超心型麦克风,满足信噪比大于等于72dBA。
![]()
也无需担心数据泄露,加密存储这块,讯飞先人一步。
车载音效系统
iFLYSOUND全链自研声学系统拥有自研的30+全链路声学算法,能让每个人都能享受到百万级豪车音响的听觉体验,带来更沉浸、更智能的AI交互。
![]()
讯飞AI黑板
讯飞AI黑板可以让声音均匀分布到教室的每个角落,即使是最后一排“摸鱼”的同学也能听清老师的小发雷霆(bushi)
![]()
每个位置都是最佳C位观景点,还有防蓝光设计。
这下,麻麻再也不用担心我上课不认真喽。
科大讯飞AI学习机
现在的AI学习机更像是一位全能的孩子守护者。
![]()
不仅护眼更友好,还可以实时检测孩子姿势,提醒孩子及时调整,全方位保驾护航孩子的身体健康。
从会议室到车内,从课堂到家庭,讯飞正在用这些软硬件一体化AI设备改变人们的交互方式,让AI从数据层理解世界走向真实的物理世界,构建起无法被替代的技术护城河。
其核心竞争力,不在于模型比别人大,而在于它能够让模型理解更广、落地更深。
因为讯飞始终相信,当AI拥有了情感理解与真实交互的能力,它就不再只是通用工具,而是每个垂直场景中人类的新伙伴:一个更懂你的AI。
留给讯飞AI的行业,不多了(doge)!
如果说软硬一体在特定场景中构筑了难以复制的“体验壁垒”,那么,当这种能力与海量的行业知识与数据相遇,AI便从“好用”的工具,进一步升维成了“懂行”的专家。
而就在发布会现场,讯飞AI赋能千行百业的系列成果也得到了集中展示。
![]()
医疗方面,得益于底模推理能力升级,其星火医疗大模型的综合实力也再次提升。
尤其在门诊/住院场景的诊疗能力上,该模型取得了关键突破——
面向等级医院的专科AI能力首次达到主任级医师水平。
基于此,科大讯飞还首次发布了智医助理医院版1.0,能辅助诊疗、辅助会诊、病历生成与病历质控。
![]()
你以为这就完了?NoNoNo,针对医疗诊断的“最后一公里”——日常健康管理,科大讯飞同样持续发力。
全新升级后的全民AI健康助手“讯飞晓医”这就上桌,这一次,人人都能构建更完整丰富的个人健康档案。
它不仅能自动整合多来源健康数据,生成覆盖170种细分标签维度的个人健康画像;更能动态追踪健康变化,展现疾病的发展趋势,让用户一目了然地掌握健康状况与发展方向。
![]()
至此,从医院的专业诊疗到家庭的日常健康,科大讯飞已构建起“AI+医疗”的完整服务闭环。
![]()
当然除了医疗,科大讯飞在其“老本行”教育领域更是钻研颇深。
仅以智能批改这个小细节为例,它就已经从“批对错减负”迈向了“步骤级错因增效”这一新阶段。
据介绍,由讯飞首创的错因标签体系,在智能批改过程中可完成3大类、3层级、4000+错因溯源。其解答题分步骤批改及错因诊断水平已超普通老师,首次迈过产品实用门槛。
![]()
具体打开方式be like:
先用星火智能批阅机扫描试卷,然后AI立马进行一键批改,批改结果会详细显示错误原因(这里就用上了三级错因体系),最后批阅机甚至能在原卷上留痕打印出一份带详细批注的试卷。
借助这种软硬结合的方式,作业批改准确率不仅更高,而且用时更少了——以前老师改一个班需要60分钟, 如今借助最新星火智能批阅机(AI+人工)仅需10分钟。
![]()
而在医疗教育之外,工作场景和日常家用场景科大讯飞也没落下。
发布会上,讯飞智能办公本X5不仅能识别每个人的特质(如习惯、口音、笔迹、周边人等),还能根据需要智能发送邮件、日程动态管理等。
另外手写纪要和AI纪要还可以深度融合,手写的会议要点会在最后生成的纪要中强化展现,更贴合用户的记录需求。
![]()
搭配总用户数超9800万的AI语音记录助手讯飞听见APP,整个工作场景也变得“更加懂你”。
此外,针对大众消费品“车”,讯飞还发布了星火智慧座舱2.0。
这套系统具备多维感知与交互能力,力求从多个层面实现“更懂你”:
懂车环境:融合13路摄像头全景感知周围,提前预警路况;懂车能力:精准控制2000多项车辆功能,孩子休息时自动开窗;懂你意图:语音识别准确率超95%,每个指令精准响应;
![]()
此外,讯飞还推出了新产品“AI星朋友”——凭借4.35MOS的高保真声音和160多种人设模型,她能通过持续学习越来越懂你,甚至会在你需要时主动来电。(科幻电影《Her》走进现实?)
![]()
总而言之,基于其不断打磨的AI技术,讯飞多年来已持续赋能教育、医疗、金融、汽车、城市、运营商、工业等行业赛道,而且无论是在C端还是B端,均呈现出“全面开花”的姿态。
以及这还没结束,各种新兴领域与传统行业的深度融合式创新,也正层出不穷。
前者如AI for Science,比如最近科大讯飞联合团队就有一项成果登上了核聚变领域顶刊《Nuclear Fusion》,他们提出的PaMMA-Net模型,为AI赋能聚变等离子体领域提供了新方案。
后者如AI在传统司法领域的创新,例如在长沙市岳麓区人民法院,依托讯飞打造的“无书记员庭审模式”,他们在一起房屋租赁合同纠纷案中,以AI全程录音录像与语音识别全面承担了传统书记员的工作内容。
咳咳,谁看了不说一句,这下留给讯飞AI的行业确实不多了(doge)。
![]()
不止是“秀肌肉”,更是对人机关系进行重新思考
而透过以上发布,科大讯飞为各行业提供AI落地的方法论也越来越清晰——
自主可控、软硬一体、行业纵深、个性化。
自主可控:打造以全国产算力为训练基座的通用大模型,独立具备全链自研能力。软硬一体:通过将自研算法与专用硬件深度整合,讯飞打造出AI学习机、智能办公本等终端产品。行业纵深:结合行业数据和专业知识,AI真正落地在教育、医疗、金融等专业领域,从原来的泛用智能转变为懂行的专家。个性化:让AI根据对象的特征偏好,提供因人而异、因企而异的智能服务。
其逻辑在于,“自主可控”是技术根本,“软硬一体”是技术表现,“行业纵深”是能力落地,“个性化”是用户体验。这四点共同构成了智能时代的核心竞争壁垒——既要掌握底层技术,又要深入应用场景,更要真正懂用户需求。
彼此之间环环相扣,最终勾勒出讯飞AI从技术能力走向产业价值的现实路径。
当然,这条路上不只有讯飞,其背后所依靠的是整个生态。正如董事长刘庆峰在现场所说:
唯有生态繁荣,才有人工智能的大未来。
而提到讯飞的AI生态,开发者无疑是其中最重要的一环。
数据显示,星火生态开发者在短短一年时间里已经增长200万。这当中,新型智能体开发者更是强劲成长为增长主力。
![]()
面对这一趋势,讯飞即日起还面向开发者,正式发布并开源首个原生支持RPA的智能体平台Astron,致力于打造全球创新引擎。
![]()
与此同时,这场发布会带给我们的,还远不止于此。
表面上看,这好像是科大讯飞AI实力的一场“肌肉秀”,但实际上,它可能已经为AI红利兑现指明了方向——
卷模型卷参数之后,如何让AI“更懂人心”正在成为破局关键。
就像科大讯飞所展示的那样,AI可以替医生撰写病历、替老师批改作业、替司机分析路况、替同事整理会议纪要、替老人记录健康、替孩子缓解焦虑……它安静地出现在每个微小而真实的日常场景中。
在这些时刻,智能不再是抽象的算力堆叠,而是能感知、能响应、能共情的“更懂你的AI”。
而这,或许也正是科大讯飞将此次活动主题定为“更懂你的AI”的核心原因——
技术终将不断进化,但真正改变世界的,不是更强的模型,而是更懂人的AI。
当AI真正“懂人”,智能也就有了温度。
![]()





京公网安备 11011402013531号