当前位置: 首页 » 资讯 » 新零售 » 正文

央视点赞!代差领先,时空壶用九年改写了AI翻译的未来

IP属地 北京 编辑:杨凌霄 雷科技 时间:2025-05-30 00:32:30

就在上个月,2025 世博会在日本开幕。虽然这届仓促举办的世博会在网上充满争议,但我们也不得不承认,这一届世博会确实给我们带来了不少「乐子」。其中最具传播效果的,莫过于日媒采访时使用的翻译设备搞错了语气,把「有看到什么厉害的东西吗?」翻译成了「有什么了不起的?」。

当然了,我们都知道,这只是翻译设备对上下文理解不够深入所引发的小误会。但如果从用户的角度看,翻译设备作为跨语言交流的媒介,确实需要一个更清晰、明确的能力边界定义,最好是像汽车的辅助驾驶、自动驾驶分类一样,有一个清晰的评级。

比如被广大 90 后学生当成掌机玩的电子词典,就只能被归类成 L1 翻译——这类翻译设备本质就是一个数字化、支持快速搜索和朗读功能的字典:其翻译引擎基于传统的文本引擎打造,只能执行最基本的词对词翻译。即使你把整句话打进去,L1 翻译也只能一个词一个词翻译。前段时间网络热哏中把「白花了」翻译成「White Flowers」的情况,就是 L1 翻译的通病。

L2 翻译的原理和 L1 翻译类似,其本质也是词对词的「映射」翻译。只不过为了方便用户,L2 翻译「外挂」了语音识别模块,可以自动把听到的语音转写成文字,不再需要用户自己打字。后续也有部分品牌将 L2 翻译集成到耳机中,但「翻译耳机」充其量只是翻译设备形态的变化,并未改变翻译时一人说,另一人只能干等的单向翻译逻辑。

和自动驾驶技术一样,L3 也是翻译技术的分水岭:因引入了 AI 大模型,L3 翻译有了理解语义和上下文联系的能力;而多模态模型等技术也显著加快了语音翻译的进程。体验上,借助矢量降噪技术, L3 翻译实现了对「双向同传」技术的突破,因此 L3 级别的 AI 同传也是目前体验最好的一种翻译模式。目前,谷歌、苹果等企业都停留在 L2 级别。

不同 AI 翻译模型的能力可以说千差万别:有些品牌能做到语义、情绪的精准传达,有些就只能「仅供参考」——开头是小雷提到的「有什么了不起的?」,就是翻译错误的最好例子。

那有没有翻译的正面案例呢?当然有,前段时间又一次登上《新闻联播》的时空壶,就是目前AI同传的代表,也是唯一一款达到L3水准的AI同传耳机。

在《新闻联播》中,记者用将近 4 分钟的时间,向外界展示了时空壶如何用 AI 技术发力翻译赛道。《新闻联播》、将近 4 分钟的深度报道,相信大家都能感受到时空壶这 AI 同传技术的含金量。说起来,这已经是 2025 年里时空壶第二次登上央视舞台了。作为成立接近十年的「老企业」,时空壶又如何在 AI 时代找到自己的竞争力呢?

传统翻译有何问题?

在看来,时空壶之所以能用极短的时间坐上翻译设备的头把交椅,并将领先优势延续了近十年,这背后离不开时空壶对翻译软硬件技术的深度探索。

基于多年的技术积累,时空壶突破了双向同传的技术限制,率先迈进 L3 翻译的阶段,随后在场景拓展、 AI 大模型升级等方面实现飞跃,与传统的 L2 翻译拉开了体验的代差。那么这个代差体现在哪里呢?我们不妨先看看传统的 L2 翻译模式有何问题:

刚刚提到,无论是手持的「翻译机」还是佩戴的「翻译耳机」,L2 翻译设备都无法摆脱 L1 翻译效率低、错误率高的问题。即使从文字输入转变为语音输入和 TTS 语音输出,其算法依旧是老旧的L1 翻译模式。这导致 L2 时代的翻译耳机需要极长的翻译时间,只能做到「伪同传」——一个人说话时,另一个人只能干等。

而且为了控制成本,这些 L2 翻译耳机通常基于市面上成熟的 TWS 公模开发。而这些公模 TWS 显然不会针对翻译耳机特殊的工作环境(背景噪声大、对话距离近,佩戴时间长,人声降噪要求高)开发。

以小雷参加 CES 等海外展会的体验为例:普通的翻译耳机几乎无法识别小雷或对方在说什么,更不用说将语音转成文字并准确翻译了。

但要说对用户体验影响最大的,还得是 L2 翻译耳机的「伪同传」问题。小雷参加 CES、MWC 等海外展会,通常都带有采访任务。为了保证双方发言的准确性,我们在采访时通常都会说各自的母语,再由翻译设备进行翻译。

此时, L2 翻译耳机「单向同传」的短板就暴露出来了。由于翻译耳机一次只能处理一个人说话(无论从现场收音质量还是模型翻译质量的角度),用 L2 翻译耳机进行采访会严重影响双方的交流效率。即使我们用 DeepSeek 等 AI 大语言模型来翻译,也改变不了 L2 单向「伪同传」的情况。

这里我给大家模拟一下 L2 翻译耳机的使用场景:

1. 我对耳机说中文问题;2. 说完后 App 后台翻译句子;3. 翻译完成后用 TTS 在对方耳机中播放;4. 对方听完后说外语回答;5. 说完后 App 后台翻译句子;6. 翻译完成后用 TTS 在我耳机中播放;7. 回到第一步并循环

毫无疑问,这种翻译模式极为麻烦,即使一方说完句子,我们也要等翻译耳机识别、翻译、播放,然后再根据自己的理解进行回复。而这种低效的单向翻译模式,也无力承载访谈、商务咨询、产品发布会等深度交流的场景,光是在餐厅点菜就已经摸到了翻译能力的上限。

用 AI 突破限制,以技术重构翻译

和单向翻译相比,L3 翻译的双向同传模式允许对话双方各说各话,各自的同传会将译文同时输出给对方,省略了单向翻译中的等待的步骤。而且人类的交流天生是需要双向的,「双向同传」模式天然更符合人类母语交流的习惯。


既然单向翻译有这么多问题,那大家为什么不做双向同传呢?

首先,在面对面交流中翻译设备难以区分发言人。还是以小雷的海外采访经历为例:摩肩接踵的展馆很难找到一个安静的采访空间,我们用翻译耳机必须必须足够大声;但因传统翻译耳机的收音模式未经优化,我说话的声音不仅会被我的耳机捕捉到,同时也会被对方的耳机捕捉到。这会直接打破翻译链路,导致翻译混乱。

此外,传统 L2 翻译耳机缺乏上下文联系的能力,本身也不适合采访这种深度、长时间、贯穿上下文的对话模式。即使我们准备两套翻译设备,只会带来双倍、甚至是更多的麻烦。事实上,这也是市面上大多数翻译设备不提供双向翻译模式的根本原因。

但对时空壶来说,恰恰是双向同传及其背后的技术挑战,让时空壶在众多翻译设备中脱颖而出,吸引了央视的大篇幅报道。

首先,时空壶利用软硬合一的矢量降噪技术优化了收音效果、为双向翻译的语音识别准确率打下基础。

2021年,时空壶发布了第一代双向同传耳机——W3。W3 的出现标志了行业在双向翻译(L3 翻译)中取得的从零到一的突破。作为 W3 的「继任者」,W4 Pro 基于 W3 的成功经验,针对 W3 找到的体验短板做出了多项改进。

在 IFA 期间,小雷就发现 W4 Pro 的长杆耳机造型、搭配每边三麦克风阵列与时空壶的软件降噪技术,不仅可以在嘈杂环境中准确捕捉对话的声音,还能精确地将对话双方的声音分离,确保每只耳机「只听一人讲话」。这一矢量降噪技术从源头确保了翻译原声的准确度,为双向同传开了个好头。

而在翻译环节,时空壶也充分开发、整合了 AI 大模型的能力——在时空壶 App 中,W4 Pro 翻译耳机的用户可以随时切换传统的 AI 机器翻译(NMT 模式)和大语言模型翻译(LLM 翻译模式)。

得益于大模型的加入,时空壶的双向翻译拥有了对上下文的理解能力,可以理解对话场景,并根据历史对话,排除不符合语境的多音字、多义词分支,获得更准确的翻译效果。

以「手冲咖啡」为例,大语言模型驱动的翻译模式就能准确识别出冲洗和冲泡,并给出正确的译文,避免「直译」带来的误会。

除了更准确的翻译效果外,大语言模型的加入也让时空壶拥有了「过滤」能力。这里的过滤说的并不是过滤环境噪声,而是过滤用户重复的语气辅助词,比如思考时无意识发出的「啊」「嗯」「那个」等无意义的语气词。顺带一提,时空壶甚至能「过滤」掉因紧张、口吃而重复说出的词。

而在功能拓展方面,W4 Pro 也沿着双向同传的路径,拓展出电话翻译、音视频翻译等等场景,带来了「全场景翻译」的能力。

但其中最重要的,在我看来还得是大语言模型对翻译的「提速」。因倒装句的存在,传统的 NMT(神经机器翻译)模式必须等句子说完才能走翻译的流程,这其实也是双向同传真正「卡脖子」的地方。

但大语言模型的加入让时空壶有了理解上下文的能力,能准确「预判」双方的含义和原句的完成进度,能像真人同传那样进行「开放式翻译」——在句子说完之前就输出译文,并根据原文的语义及时调整输出的译文。

这一技术创新改变了传统翻译的模式,让译文可以伴随原声「同时」出现,显著压缩了对话翻译所需的时间,让用户可以更早听到翻译结果,也让「双向同传」走向现实。

是什么让时空壶坚持到现在?

尽管「双向同传」技术、以及背后对技术探索的坚持让时空壶从一众翻译设备中脱颖而出。但回看时空壶自 2016 年创立以来的众多明星时刻,几乎可以肯定,将翻译硬件行业带入 L3 时代的双向同传技术,只不过是时空壶近 10 年发展史中众多技术亮点之一。在翻译硬件行业,时空壶必将迎来更多技术突破。

小雷之所以敢下这样的判断,其实也和时空壶这个品牌的「使命」相关。刚刚提到,创立于 2016 年的时空壶还有不到一年的时间就要迎来自己的十岁生日了。但大多数人不知道的是,2017 年时空壶就作为首批成员入选了腾讯 AI 加速器;2018 年时空壶更是凭借 WT2 Plus 翻译耳机与 Concorde、Orange、LVMH、软银等重量级企业达成合作伙伴关系,成功登顶美国亚马逊销量榜首。

那么是什么推动着时空壶在翻译领域不断创新呢?抛开那些「外在的荣誉」,时空壶在翻译领域深耕多年的原因解释起来甚至有些意料之外的幽默——时空壶的创始人田力是一个「科幻迷」,想把《银河系漫游指南》中的「巴别鱼」带进现实。

1979 年,英国作家道格拉斯·亚当斯出版了科幻巨作《银河系漫游指南》,书中提到一种虚构的生物——巴别鱼。这种小鱼能接受环境中的「精神频率」,并向携带者传输。只要你将巴别鱼放进耳朵里,就能立刻理解宇宙中的任何语言。

尽管书中用讽刺笔调描写巴别鱼,但其背后同样蕴含着积极、理想主义的哲学内核:巴别鱼象征着人类对「交流、沟通」的终极追求——不再被语言隔阂束缚,每一个声音都能被理解。

而「巴别鱼」式的交流模式,也是时空壶奋斗的终极目标。

在去年 IFA 现场,与时空壶 CEO 田力进行了一次深度访谈,当时田力一针见血地分享了他对翻译硬件的看法:

耳机不是目的,翻译设备未来有可能是眼镜,有可能是领夹麦克风,形态其实没有那么重要。时空壶的宗旨不是去做耳机,是如何让人们能够沉浸式跨语言交流。

翻译成对产品的讨论,那就是「如何为用户带来沉浸、无感、让人察觉不到跨语言的障碍,这才是翻译设备需要解决的问题」。

这些思考在时空壶的产品上同样有所体现:W4 Pro 用开放式设计换来了长时间使用的舒适度;全自动的双向翻译模式不需要双方切换发言人,不会打断深度交流时的思路……类似的理念也体现在不久前刚刚升级实现全球第一款纯离线翻译的新 T1 和 AI 同声传译器 X1 中。

从这个角度看,这种对无障碍交流的使命感,才是推动时空壶在翻译领域创新的真正动力——就连时空壶的品牌 Logo,也是对「巴别鱼」的一种致敬。

有趣的是,在 L1-L5 翻译分级中,时空壶还埋藏了一个小彩蛋——在时空壶准备发力的 L4 翻译、全智能 L5 翻译之后,还有一个 L∞ 级翻译。而 L∞ 级翻译的代表,恰恰也是时空壶的终极目标——巴别鱼。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。