![]()
新智元报道
编辑:编辑部
刚刚,唯一全国产算力训出的大模型重磅升级,推理效率飙升100%,数学能力国际领先。当全球巨头还在云端「卷」算法时,中国队则亮出了软硬一体这一截然不同的底牌。
时至今日,在中国主流大模型中,讯飞星火仍是「唯一」基于全国产算力训练的通用大模型。
而就在刚刚,他们在发布会上宣布,通用大模型国产算力训练的两座大山,被攻克了——
·长思维链强化学习训练效率
·MoE模型全链路训练效率
同时,全新深度推理大模型——讯飞星火X1.5,也正式发布!
基于MoE架构的星火X1.5,总参数293B,激活参数30B。
相较于上一代,推理效率直接暴涨100%。
根据多项国内外权威评测基准,星火X1.5的综合性能成功跻身全球顶级大模型行列。
![]()
![]()
此外,讯飞还全球首发了非自回归语音大模型架构——不仅效果提升了16%,而且推理成本也暴降了520%!
![]()
从年初DeepSeek横空出世,到OpenAI的GPT-5,AI全球竞赛整整一年没有停下。
技术的迅猛发展和应用场景的不断拓展,推动了AI从探索阶段走向了实际落地的关键时刻。
如何落地,如何激发AI开发者无限创造力,如何让普通人也能共享AI时代的发展红利?
科大讯飞董事长刘庆峰给出了一个清晰的洞见,AI红利兑现的四大关键核心:自主可控、软硬一体、行业纵深和个性化。
AI进入物理世界的关键门票
AI的上半场是对话革命,是算法的狂欢。
在数据中心里,Token正在疯狂消耗,AI的能力在一年内增长了千倍上万倍。
这催生了无数AI大脑——它们在云端无所不知,能写诗、能编码、能通过法律和医学考试。
然而,当这些聪明的「大脑」试图走出数据中心,进入真实的物理世界时,它们突然变得「五感失灵」。
现实世界不是无菌实验室,它充满了混乱:
嘈杂的背景音(噪音)、十米开外的指令(远场)、模糊的口音、混乱的多人对话(多模态),以及每个用户独一无二的需求(个性化)。
纯软件的AI模型,在处理这些「物理世界的复杂信号」时,表现得一塌糊涂。
当行业在「纯软」的死胡同里打转时,科大讯飞选择的是一条能够让AI在真实世界应用落地的路。
他们在全国产平台上,将硬件能力和大模型深度对接,一步一个脚印地死磕AI进入物理世界的关键门票——软硬一体。
![]()
科大讯飞以智能语音起家,将这项能力长板硬件业务重塑为「未来AI的基石」。
人类想要感知物理世界,最重要的就是听、说、看,而AI算法再强也无法绕过声学与光学规律。
首先是「听」。
讯飞原创的多型麦克风阵列,通过AI的测算和动态调节激活部件,实现了语音属性的解耦,信号的时空分离,不同位置声源的精准定位,自适应背景降噪,回声消除,以及说话人分离等技术。
![]()
在应用这项技术的讯飞智能办公本X5上,高噪远场识别效果,远超iPhone17 Pro。
![]()
然后是「说」。
讯飞AI翻译耳机在高噪环境的测试表现,也显著优于AirPods 3。
在地铁、展会等嘈杂环境的识别准确率高达97.1%,并且还首创了多感融合AI降噪系统,通过软硬件的结合让降噪效果变得更好。
更加科幻,甚至称得上是黑魔法的是,讯飞的双屏翻译机2.0在开启强降噪之后,可以形成穹顶式的隔音墙,把1米以外的人声和噪声全部隔离。
当1024节现场演示这项功能时,就像阿西莫夫所说,领先时代的科技看起来都和魔法无异,这不就是网络小说里的经常看到的能力结界吗~
![]()
不仅如此,讯飞还打造了业界首个同传麦克风,不仅可以进行实时同传翻译,而且还可收听翻译语音,时延低于2s。
![]()
讯飞的AI+扬声器阵列技术,可以说实现立体空间声场重构和均衡。
![]()
用于智能座舱声场的iFLYSOUND,目前已经在19家车企量产落地。
音响效果可以媲美国家大剧院,而在盲测中,10万级别的国产车效果就超越了宝马740i,甚至可以媲美百万级的豪车迈巴赫S680。
![]()
在教育领域,讯飞依旧持续发力。
最新的AI黑板可以让教室里每个座位都是C位,在10米的距离上,声压差小于等于3分贝,每个角落都可以听清。
而且这款AI黑板还采用了全球首款圆偏类自然光护眼大屏,不论坐在教室中央,还是坐在两侧的同学都能获得同样的上课体验。

讯飞将软硬一体的原生AI硬件能力下放到AI学习机上,不仅将护眼功能拉满,还能通过AI算法纠正孩子学习时的坐姿。

此外就是「看」,讯飞的自研AI摄像头阵列产品能够实现目标的精准识别和跟随。
![]()
这些和AI紧密结合的硬件能力,并不是存在于单一的模块。
不论是展馆中的智能屏摄像头,还是AI学习机上监看作业本的摄像头,不论是随身的耳机,还是未来汽车中的音响,讯飞将AI能力和硬件原生地绑定在一起。
讯飞的硬件不是简单的外设,而是为AI量身定制的「超级感官」。
当未来具身智能真正走入社会,和人类共同生活,软硬一体支撑的多模态交互是AI融入真实世界的物理基础。
![]()
别再说AI冰冷,它比真人还贴心
如今,我们身边有很多虚拟AI形象,但它们始终无法融入到我们的生活之中。
这背后关键因素在于,传统AI虚拟人并不具备多模态交互的能力。
它就像一个「冰冷的机器」,无法感知人的情绪,无法拥有个人专属记忆,更难以建立真实的情感连接。
要真正做到多模态交互,还需要具备以下几个关键要素——
麦克风远场识别、3D世界感知、多人主动交互、类人举止反馈、视听觉融合理解、超拟人数字人、个性化记忆、情感语义。
![]()
只有以上所有技术,综合联动耦合,这样的AI数字人就可以进入更加深度应用的空间中。
这一次,发布会上,讯飞基于星火X1.5深度推理模型之上,首发个性化记忆能力。
通过多源记忆库信息检索和应用,它可以找到个人记忆,并进行识别、提取、更新。
现场演示中,两位讯飞伙伴一位歪果仁朋友Henry和与虚拟人「小飞」,开启了多轮「有记忆、有情感、有温度」的对话。
他们一走到屏幕前,小飞一眼识别到新朋友,并自动切换语种——英语和Henry无缝交流,得体自然。
在三人的交流过程中,AI并不会无意间插话,而是认真做一个旁听者。这就体现了,在多人对话中,AI理解场景的能力。
接下来,小伙伴们又和小飞交流起发布会展区的实况。让其推荐一个适合翻译交流产品,它立即给出了建议——双屏翻译2.0、AI翻译耳机,以及在展区的位置和购买方式。
小飞还可以为Henry推荐安徽著名景区黄山,打卡美食臭鳜鱼,甚至还可以帮忙预订酒店、门票。
不仅如此,诸如对话时暂停、挥手再见等手势,小飞也能秒懂并回应,堪比真人理解力。
它甚至拥有独特的人性化记忆。当小哥说要当Henry的司机,小飞非常关怀地问道:
「我记得你前几天不太舒服,出去玩没问题吧?」
小哥当场描述自己的症状后——这几天有点受凉,流清鼻涕,让小飞帮忙辨别应该喝哪种药时,小飞会依据症状分析得出:吃荆防颗粒。
顺带,它还贴心提醒他们,未来几天黄山天气多变,需要增添衣物。
![]()
更有趣的是,让小飞扮演「林黛玉」,并总结为Henry制定好的旅行计划。只见,从音色、到形态,简直有模有样。
其实,不止林黛玉,讯飞数字人还可以模拟各种声音。
发布会上,他们首发了「百变声音复刻」,一句话即可上演角色宇宙,实现真实的超拟人交互。
![]()
演示中,输入一句话,可以创造一个温暖的女声音色,也可以是一个嗓音粗犷的大将军音色。
超拟人数字人之所以能够实现流畅的多模态对话,不仅依靠前端麦克风、摄像头等硬件协同。
更重要的是星火所支撑的多轮对话、语义理解与生成能力,再结合个性化音色等,这些技术做到了深度融合。
正因此,才能让当前「同质化」大模型,真正转变为每个人身边贴心、实用的学习与工作助手。
![]()
更懂你的AI,告别千篇一律
所以真正的AI,不是千篇一律的AI,而是可以让每个人站在AI肩膀之上,懂你所需的AI。
每个人应当借助AI,成就更好的自己。
![]()
那么,要成为一个更懂你的AI,需要具备什么样的条件?
它能够满足一个人的成长需求、工作需求、生活需求,以及情感需求。
它还要具备历史记忆、人格特征、多维理解、专有知识的能力。
![]()
涵盖面如此之广,听起来又很抽象,不如我们就把它放入实际场景中,去看看「懂你的AI」究竟是什么样的?
批改纠错,小时级闭环
以教育为例,如何真正做到「理解孩子」,关键在于为孩子的学业减负增效,释放更多时间。
这背后,核心在于「懂学情」。
如今,在智能评分、分布骤批改作业、错因分析三座高峰,讯飞AI能力不断提升,并持续保持行业领先水平。
![]()
他们首创的「三级错因体系」,覆盖了4000+错因标签,可以让AI错因诊断水平超越普通教师。
![]()
这不,大会现场,「数学老师」拿着待批改的试卷,生动还原了一场真实的教学场景——课程内容是:二次函数与一元二次方程、不等式。
她将一摞学生试卷,放入星火批阅机后,便开始了高效的作业的扫描。它能以1分钟,扫描一个班级的量。

没几分钟,扫描和批阅几乎同时完成。
以第一位同学周恬(化名)的数学作业为例,在解答题部分,AI可以「分步骤批改」,并给出了错因诊断,以及纠正方案。
![]()
![]()
![]()
左右滑动查看
与此同时,随着学情不断累积,它还能直出历次的「学情报告」。
每一次学情状况,都会在知识图谱上动态呈现,还可以就一个知识点继续挖掘,从根本上精准解决薄弱点。
![]()
以上只是一个学生的学情,放大到整个班级,批阅机还会为老师生成一份整体的报告。
AI汇总了学生的「共性错因」,让老师可以对知识点讲解的轻重有一个更好的把握。
![]()
在上课时,AI黑板右下角就会浮现「AI教师助手」,它会根据刚才的学情报告,为老师提供相关的教学建议。

可以看到,从星火批阅机,到星火教师助手,再到AI黑板,可以做到完整联动。
![]()
老师从作业批改到教学,实现了「小时级」的闭环,为其规划出最合理的个性化教学路径。
医学能力跨越式突破
一个懂你的AI,还需要懂你的健康。
这意味着,它必须具备医学诊断能力,可以管理个人的健康档案,提供健康管理咨询等等。
讯飞「智医助理」就是这样一个懂你健康的AI。它是全球首个通过国家执业医师资格考试笔试测试,并真正投入一线应用的医学AI。
这一次,「智医助理」的能力再次升级,覆盖病种拓展至2500种,首诊合理度从95分提到98分以上,还新增了医学思维链循证推理和中医辅助诊疗。
![]()
假设调用一份真实的病历——引发热、心悸胸闷,就诊于内科45岁女性患者。
引用病历后,「智医助理」会主动提醒,避免因医生工作繁忙,会出现病历不规范的情况。
通过修正病历,AI系统会结合患者病情推出可能的诊断,同时给出下一步病情鉴别的建议。

而且, 点击诊断推理路径,可以清晰直观呈现「循证推理」的逻辑,可以帮助医生拓展诊疗思路。
![]()
当然,医生还可以参考推荐的内容,进行下一步的辅助问诊,比如输入「突眼」症状。由此,甲亢的病症可能性又增加了。
![]()
![]()
![]()
左右滑动查看
除此之外,升级的中医辅诊,结合权威的中医知识,根据患者症状,进行了辩证的论治。
如今,「智医助理」已覆盖全国801个区县,累计提供11亿次辅助诊断。
而且,星火医疗大模型专科AI能力,已经达到了等级医院「主任级医师」的水平。
![]()
在AI的加持下,人机协同已大幅提升医生诊疗服务能力,其中专科诊断合理率提升至96%,跨科室诊断提升至91%,病例书写时间减少一半。
![]()
同时,讯飞现场还发布了「智医助理医院版1.0」,覆盖了辅助诊疗、辅助会诊等多方面能力。
人人可用的晓医App同时升级,结合健康档案,提供用户及家人更专业、更个性化的健康洞察和管理建议,让看病问诊真实走向普惠化。
你的下一个副驾,会「读心」
接下来,如何把LLM集成到汽车中,让它在出行的过程中更懂你呢?
当你在车上冷到发抖时,它会秒开座椅加热、暖风空调;发现水坑挡路,它会立刻提醒「右侧有积水」;甚至开车不断眨眼的细节,它都能够感知,还贴心给出用药建议,下单滴眼液......
这样的AI,就像是把心灵感应功能刻在了DNA中。
它就是「星火智能座舱2.0」,做到了懂你、懂车、懂环境,这样的汽车才是真正的未来。
![]()
打工人终极外挂
还有在工作场景中,打工人需要的不只是一个会写调研报告的LLM,而是一个懂你岗位、风格、资料、同事的AI。
讯飞智能办公本,就是典型的代表。
![]()
现场,刘庆峰一边「布置作业」,办公本一边录音记录,还能随时做笔记。
同时,手写纪要还可以和AI纪要深度融合,手写的会议要点会在最后生成的纪要中强化展现,并且,所有的纪要内容可精准回溯至原始录音,核对更高效。
说话结束后,它会帮你自动转录,生成总结摘要,而且还会根据声音,备注出每个说话人的名字。
它还能准确提取待办事项,打工人直接加入日程,方便后续跟进了。

小彩蛋
最后,讯飞现场还放出了一个小彩蛋——AI星朋友。
每一个人,都可以拥有自己的「AI朋友」。它可以成为你的情绪树洞,也可以是你的人生队友。
AI星朋友有超160种人设模型定制,还能通过「自学习情感模型」记忆个人偏好,聊的越久就越懂你。
现在微信搜索“AI星朋友”小程序,即可创建懂你的声音、接听专属的温暖。
开源首个原生支持RAP的智能体平台
一直以来,讯飞坚信,只有整个生态的繁荣,才会有人工智能的大未来。
过去一年,开放平台的开发者增长了200多万,其中增长最快的是智能硬件开发者、大模型企业开发者。
此外,新型智能体的开发,有一半来自非技术领域。
![]()
AI走向落地,智能体是一个不可多得最佳应用案例。而这一年,我们也见证了诸多智能体AI的诞生。
发布会现场,讯飞面向开发者,正式发布首个原生RPA智能体平台——Astron RPA。
Agent+RPA可以跨越应用鸿沟,将「大脑」和「手脚」结合,跨越AI应用鸿沟;还可以有效打通企业内缺少接口的IT系统和账号体系。
![]()
软硬一体之争,谁是破局者?
过去一年,AI发展速度之快,已超越了历史上任何一次工业或技术革命。
![]()
如今,算法、算力、数据已成为基础设施。接下来,谁能让AI真正进入物理世界,谁就能定义智能的未来。
因为,只有AI落地,才是兑现红利的起点。过去几年,AI巨头们几乎都在同一维度上狂奔。
OpenAI用GPT系大模型掀起了认知智能革命,谷歌又用Gemini试图重塑多模态范式。
还有Anthropic、meta、xAI、微软等玩家,各自拉起了模型矩阵。
它们不仅坐拥巨量的算力资源,还在算法创新上不断堆叠,这种路线的成就毋庸置疑——
ChatGPT、Gemini、Grok、Claude大模型,都代表了当前人机交互的新高度。
然而,在强大的大模型,离真实场景往往隔着一层「玻璃」,即落地的核心:AI能否真正兑现红利。
每一种场景,都在呼唤一种更深层次的多模态理解与交互。
要实现这一点,任何纯软件的方案——无论是手机App,还是云端模拟,都只是隔靴搔痒。
实际上,硅谷巨头们早已意识到了这一点,走向软硬一体,能否让技术「活」在用户手里才是密钥。
就以谷歌为例,其Gemini Nano已下沉到全新Pixel 10系「全家桶」。
不论是离线翻译、AI摘要总结,还是实时生成图像、智能拍照等场景,一部手机+端侧模型即可完成。
他们还专为模型,量身打造了Tensor芯片,直接将AI能力深度嵌入芯片和传感系统中,做到真正的原生AI体验。

微软PC全球生态覆盖超十几亿,其打造的AI助手Copilot,植入Windows系统提供了更智能的体验。
再比如,OpenAI多次爆出重组机器人团队,与博通联手定制AI加速器;特斯拉以物理世界为基础,将Grok植入擎天柱、自动驾驶「大脑」......
这些实践足以说明,没有软硬一体,智能永远悬在空中。
然而,放眼全世界,很多企业理解的软硬一体,更多地停留在了「堆叠层面」——
硬件是承载,软件是驱动,两者拼接即可。
但真正的软硬一体,是一种「认知协同」的系统。这,又该如何理解?
首先,模型算法必须理解硬件的输入特性,比如声音、图像、传感信号等。其次,硬件架构也要反向适配AI算法的反馈机制,包括延迟、功耗、推理路径。
更重要的是,系统还可以在多模态下自洽运行。
这也恰恰是大多数公司面临的瓶颈。它们在AI算法上极强,但在硬件生态上碎片化。
而传统硬件巨头,反之在算法层面缺乏统一的认知引擎。
AI国家队,全栈打通
在AI兑现红利的竞赛中,中国队的机会正在于体系化的整合能力。科大讯飞的路径,尤其具有代表性。
它并没有只押注算法,而是构建了一条从算力,到模型,再到硬件、多场景应用的全栈闭环。
作为认知底座,讯飞星火X1.5全新升级,在多语言、多模态等能力上持续迭代。它是唯一基于全国产算力训练的主流大模型。
还有自研的麦克风阵列、多模态模组等,构成了感知层的基础。
在声学层面上,通过麦克风阵列+视觉摄像头融合,在10米远、20分贝噪音下实现95%识别率,而行业平均只有20%。
这意味着,在课堂、汽车座舱、展会、工程等多种环境中,AI可以听清每一句话。
而终端设备,比如AI学习机、AI黑板、翻译耳机等矩阵,形成了「AI具身接口」。只有软硬一体支撑的多模态交互,才是AI融入真实世界的物理基础。
以AI黑板为例,讯飞将声学与视觉深度融合,重构教室光路,让「座座皆C位」。
其配备的24通道AI扬声器阵列,让教室前后声音差别只有3分贝,即便学生坐在最后排也能听得清楚。
![]()
软硬一体,更是讯飞构建行业壁垒的引擎。每一个设备,都是AI与真实世界的传感器。它可以让讯飞以行业为半径、以数据为飞轮持续迭代。
在教育领域,AI批阅机的「错因分析」体系,精确到4000+标签,准确率超普通教师,真正让「AI懂学生」。
在翻译领域,AI翻译机+耳机与听见APP联动,做到了2秒及时响应,复杂噪音下识别准确率破纪录。
这一切,都是讯飞的核心竞争逻辑,是别人难以复刻的模式。
因为,要在软硬一体上做到讯飞的深度,还需要三件事同时成立:
全栈自研体系:从麦克风阵列,到算力平台、算法框架等,全国产可控;
跨领域团队协同:硬件部门和研究院团队需要共线开发;
行业纵深:教育、翻译、医疗、汽车等行业连续多年落地深耕。
只有这三点叠加,才是讯飞壁垒的壁垒。
当别的AI还在对话框里回答问题,讯飞的AI,已经能在嘈杂环境中听清你、在屏幕前读懂你,并在世界行动起来。
他们正用自己的方式证明,AI应该是让世界真正「被理解」的技术。
当AI有了身体,有了温度,我们离那个真正「懂人」的智能时代,又近了一点。
参考资料:YXH
https://gitee.com/iflytek/astron-rpa





京公网安备 11011402013531号