![]()
AI应用风向标(公众号:ZhidxcomAI)
作者|江宇
编辑|漠影
智东西11月26日报道,近日,豆包输入法正式上线。体验过的网友纷纷好评,抱着好奇,我们也下载体验了一番。
豆包输入法APP的图标依然沿用了豆包的代表性形象,是一个举着手机说话的豆包。这个图标或许是在暗示,其侧重点恰是在“语音转文字”这个功能上。
![]()
▲豆包输入法图标
打开豆包输入法APP之后,上手流程非常直接,只有两个步骤:启用豆包输入法、切换到豆包输入法。在安卓端整个过程很干脆,不会有繁琐的权限设置。
进入设置之后,豆包输入法的核心功能——语音转文字的相关内容被放在最前面。
![]()
▲豆包输入法“语音转文字”设置栏
在语音设置里,除了常见的语言展示方式、数字与英文处理、弱WiFi下是否切换流量、是否允许有限使用蓝牙麦克风这些基础选项之外,“智能标点”是比较新的功能点。
它给用户提供了四种选择:智能增加标点、用空格替代标点、句末不加标点以及保留所有标点。真实体验下来,我们觉得“智能标点”这个功能在使用语音输入时较为关键。
如果标点能自动处理,那么语音转文字之后就基本不用再进行二次编辑了。
此外,离线语音功能是我在设置里看到的另一个亮点。只要下载大约150M的离线模型,就能在弱网或无网情况下继续使用语音识别。
![]()
▲豆包输入法“离线语言”下载
语音不完全依赖网络,对输入法来说其实非常实用。毕竟输入法并不是一个只在网络稳定环境下才会使用的工具,把语音能力放在端侧可以避免很多使用过程中的断点。
在简单设置完成后,可以看到豆包输入法的整体布局与常用的几款输入法较为接近。
![]()
▲豆包输入法界面
真正体验语音识别时,我挑了一段比较有挑战性的片段,选的是《甄嬛传》里的“滴血认亲”名场面。我把播放速度直接调到两倍,人声语速非常快,中间还带有接近文言语感的对白。
![]()
▲豆包输入法
从结果来看,豆包只在人物姓名的识别上出现了偏差,其余内容与台词差别不大。我也用其他输入法对比测试过同一段内容,差异较为直观的。
![]()
▲另一款具备AI功能的输入法
为了进一步测试,我换了一段粤语片段,来自《九品芝麻官》,这一段的密集对白就比较考验模型的识别能力。
![]()
▲豆包输入法的粤语识别效果
在豆包上测试时,每行台词基本都是完整呈现的。
此外,我尝试了一个更贴近职场沟通的场景——中英文混说。
![]()
在豆包输入法中,这类混合语句的识别几乎无需修正。它能准确识别英语词汇,并与中文内容保持正确的分割,句子的标点也能合理补齐。
体验下来,可见豆包输入法的语音识别能力是较为强劲的。
语音之外我也尝试了键盘输入,主要观察联想栏的表现。比较简单的是算术题,输入算式,它会直接在联想区给出运算结果。
![]()
▲豆包输入法直接输入等式结果
如果输入一些常识类问题,系统也能给出对应答案。
![]()
▲豆包输入法直接输出吴承恩属于哪个朝代
比较意外的是,当我输入“前OpenAI研究员”时,联想栏直接出现一串名字。
![]()
▲豆包输入法推测出伊利亚和卡帕西
然而当我断开网络之后,这些联想就全部消失,可见它并不是传统意义上“词库联想”。
当然,这里是否“问了AI”还是简单的联网搜索,还需要以官方解释为准,但从体验角度看,它并不是简单的静态词库,能够在很大程度提升输入体验。
在整个的体验过程中,也能感受到豆包输入法目前仍存在一些需要补齐的功能。
基础输入方面,它暂时没有手写、五笔和繁体转换的能力。光标移动目前只能左右,而有些输入法已经支持上下跨行移动。键盘输入“不跟手”的反馈在社区里也有人提到。
这些问题都属于输入法常规能力的一部分,可以期待豆包输入法后续的优化。
写在最后:从输入法看AI时代的人机交互
从豆包输入法的应运而生可以看出,在AI时代,人机交互的变化已经开始在最日常的工具层面出现苗头。
人和设备的关系正在从按键输入,走向更自然、更接近日常沟通的语言表达。
而在未来,借助AI,人类或许无需再刻意学习如何操作工具,只需要说出来,甚至只是“想一想”,工具就能理解、思考并执行。





京公网安备 11011402013531号