当前位置: 首页 » 资讯 » 新科技 » 正文

AI输入法已经进化到用“嘴”写稿了,我用小凹“说”完了一整篇

IP属地 中国·北京 智东西 时间:2025-12-10 18:19:07


AI应用风向标(公众号:ZhidxcomAI)
作者|江宇
编辑|漠影

智东西12月10日报道,今日,智谱正式发布并开源GLM-ASR系列语音识别模型,并同步上线了基于该模型打造的桌面端智谱AI输入法“小凹”

相比传统语音输入只能“把话变成字”,小凹在输入框中即可完成翻译、改写、计算、规划等指令操作。

我们在实际体验中发现,小凹不仅能在实现相对稳定的语音转写,还能顺着用户的口语进行内容整理、风格转换或直接完成小任务。

例如随口报账、算工资、安排旅行、甚至解一道数学证明题,它都能跟上。而对于碎碎念、自我修正和中英混说等复杂口语,小凹也能给出相应结果,但整体稳定性仍有提升空间。

与此同时,智谱此次还开源了1.5B参数量的端侧模型GLM-ASR-Nano-2512,重点面向本地低延迟与隐私场景,在部分公开测试集上达到开源SOTA表现。

GLM-ASR-2512使用指南:https://docs.bigmodel.cn/cn/guide/models/sound-and-video/glm-asr-2512

体验中心:https://bigmodel.cn/trialcenter/modeltrial/voice

接口文档:https://docs.bigmodel.cn/api-reference/模型-api/语音转文本

GLM-ASR-Nano-2512开源地址:

Hugging Face:https://huggingface.co/zai-org/GLM-ASR-Nano-2512

魔搭社区:https://www.modelscope.cn/models/ZhipuAI/GLM-ASR-Nano-2512

一、从云侧到端侧,语音识别被直接塞进输入法

这次同步发布的GLM-ASR-2512是一款云端语音识别模型,支持实时语音转文字,在多语种、多口音与复杂环境下进行过稳定性测试,其字符错误率(CER)仅为0.0717

同时开源的GLM-ASR-Nano-2512则是一款约1.5B参数规模端侧模型,主打本地运行,在延迟和隐私层面更友好。它在开源语音识别方向已达到SOTA水平,在部分测试中甚至超过了若干闭源模型。


▲GLM-ASR-Nano与多款主流语音识别模型在多个公开数据集上的识别错误率对比

围绕这套模型能力,智谱将语音识别直接嵌入桌面端输入法中,使语音可以直接驱动翻译、改写、扩写、情绪表达转换与计算等一系列后续操作,用户在输入框中即可完成从语音到结果的完整流程,不需要再切换窗口,也不需要复制粘贴,光标在哪,说完就能直接替换。

二、语音不只转文字,还能顺着你的话去改、去算、去规划

在实际体验中,首次使用需要跳转浏览器完成手机号登录,并进行麦克风和“允许粘贴文字”基础权限授权。


▲使用浏览器登录以使用小凹语言服务


▲麦克风和“允许粘贴文字”基础权限授权

完成授权后,输入法会自动跳转到一个体验界面,主要用于语音调试和熟悉核心功能。随后,进入输入法主页,整体界面分成“首页”“词典”和“人设”三个主要区域。

首页更像是一个“使用仪表盘”,会把近期的语音输入时长、生成文字数量以及按打字速度粗略计算的节省时间都展示出来,底部还会自动记录用户一天内的输入内容,方便回看。


▲智谱AI输入法主页

“词典”是一个用于维护专有名词和口头表达的小工具栏。它会自动学习用户经常说的词,但也允许用户手动添加项目名、人名、行业术语等,避免转写时出现错误。


▲词典页面

再往下是“人设”页面,可以说是输入法里AI化最明显的部分。这里不仅能看到多个预置的人设,如“默认风格”“自动翻译”“命令行大神”“面对老板”“面对伴侣”“面对同事”等,每一个都带着对应的表达语气。同时也支持用户自己新建人设,调整语气、表达方式或行为偏好。点开任意人设,右侧会显示可编辑的描述区域


▲人设页面

进入正式体验后,我先从最基础、也是最贴近日常使用的场景开始试起。

看到案例里它能把说错的日期和时间自动整理成最终确认的结果,我也顺手用了一种接近真实口头表达的方式来测试。


我像平时说话一样随口讲:“呃呃我打算九点召开一个会议,嗯……算了,还是十一点吧。”

在多轮尝试后,最终才得到的预期结果“我打算在十一点召开一个会议”。可见,它对口语中自我修正和停顿词的自动处理,目前还谈不上完全稳定


在更为复杂的一轮测试中,我直接口语输入了一整段中英文混杂的工作沟通内容:“这次Q3的marketing campaign involves our research team,leverage on他们新出的报告吧,然后费用的话charge Joanna部门,问一下他明天有没有时间一起过一下budget,上周五你present的deck等会可以发我一下吗?也cc一下Jennifer吧。”


在这一轮中英混说的测试中,系统虽然能基本还原语句结构,但英文部分的识别准确性一般,连续表达时容易出现偏差。

随后我测试了人设表达功能,分别选择了“面对老板”和“面对伴侣”,输入同一条“抱歉,我临时有事,下午去不了了”,两种人设在语气上整体差异并不大。


▲ “面对老板”这一人设的输出结果


▲ “面对伴侣”这一人设的输出结果

如果希望达到展示案例中的明显风格切换效果,或仍需要在自定义人设中补充更明确的提示语。


▲人设功能的官方案例展示

而面对开发者,“命令行大神”这一人设则具备一定的实用性,我语音输入“显示当前所有python进程的进程号”后,系统功能直接给出标准命令结果。


▲ “命令行大神”这一人设的输出结果

随后我又连续语音提问“小凹,智谱AI输入法的优势在哪里”和“为什么语音输入比键盘输入更友好”,感觉更像是在输入法里直接“召唤”了一个AI助手,答案不是弹窗形式出现,而是直接生成在光标位置,这两次提问都能正常给出解释性回复。


▲解释性回答

此外,在选中文本后,说出“翻译成英文”、“翻译成日文”和“翻译成四川话”,结果均可即时替换,光标所选即所改的模式在编辑过程中比较高效。


在更偏向生活类的小任务里,我先试了一个随口报账的场景:“嘿小凹,帮我记一下今天的账单,我早上吃饭花了六块五,中午快餐二十五,晚上看电影三十九,晚饭一百。”输入法能把这些数字正确记录下来,自动汇总结算


▲记账

随后,我又试了试计算工资的场景:“嘿小凹,计算一下年薪有多少?月工资三十k,签字费五万,十万期权分两年发放。”系统能把这些条件拆开并算出一个明确的结果,用语音完成这种小型算式比预想中顺滑。


▲算工资

再往后我测试了一个规划任务,比如“嘿小凹,我想去上海玩两天,从北京出发,帮我制定一个旅行计划。”它也能给出一个结构化的行程建议。


▲行程规划

此外,我还抛了一道数学证明题进去,系统不仅给了过程,还在听到有歧义的部分时主动提示:“题目中的‘1+x分之x’我理解为‘1+x/x’。”这种在语音表达容易含糊时给出的额外说明,对纯语音输入来说还是挺关键的。


此外,在完成全部功能测试后,我又把“小凹”放进了真正的写作流程中。这篇稿子里,约有90%的内容,是通过语音直接生成在输入框里的,很多段落几乎是“边想边说”就成型了。我也第一次明显感觉到,输入方式正在反过来影响写作思路。

结语:输入法很可能会成为AI下一个高频入口

从这次整体体验来看,小凹的变化在于它开始接管一部分原本需要人手完成的小任务:一句话可以记账、算清一笔收入、改一句表达、顺手做一个行程规划。

输入法这个原本最基础、最熟悉的工具,正在被重新定义成一个“随叫随用”的AI入口。

更重要的是,这种变化发生在桌面端,AI能力能够被直接嵌进日常最频繁使用的输入场景里,慢慢变成工作流的一部分。

当然,从碎碎念整理、中英混说到人设表达的稳定性来看,小凹仍然处在不断打磨的过程中,但方向已经很清楚,AI已经开始更具体地参与到用户每天的工作中。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。