当前位置: 首页 » 资讯 » 新科技 » 正文

深度对话:小米阿里引爆智能眼镜,AI耳机还是个好赛道吗?

IP属地 中国·北京 编辑:朱天宇 观察者网 时间:2025-08-07 10:20:31

在AI浪潮席卷硬件的当下,小米、阿里、百度等传统科技巨头纷纷押注智能眼镜,而脱胎于科大讯飞的“未来智能”,却选择深耕AI会议耳机赛道。尽管起步坎坷,其第一代iFLYBUDS耳机因基础体验问题遭遇用户批评,但AI会议录音的核心场景价值却被清晰验证。

从“边骂边用”到头部玩家,未来智能完成了艰难的蜕变,团队深刻总结出“5+X”法则。

正是凭借在垂直场景的深度耕耘、对蓝牙底层协议的优化,以及基于“viaim大脑”的硬件重构理念,未来智能在巨头环伺中构筑起差异化的“护城河”,同时也吸引了资本的目光,该公司已完成包括启明创投领投的Pre A+轮在内的多轮融资。

近期,在世界人工智能大会(WAIC 2025)现场,观察者网与未来智能CTO王松进行了深度对话。

这场对话,探讨了未来智能如何从场景出发,以AI+硬件的深度融合,在激烈的竞争中开辟属于自己的航道,并坚定看好AI耳机在未来人机交互中的关键地位。

展望未来五年,王松也给出了鲜明判断:智能眼镜受限于供应链成熟度、人体工学设计以及开放式耳机在噪音场景的固有短板,短期内无法取代具备深度降噪等核心能力的耳机。


以下是对话实录:

观察者网:众所周知,硬件是AI落地的重要载体。今天,我们邀请到了国内AI会议耳机头部企业未来智能的CTO王松,请他与我们共同探讨AI终端的未来发展趋势。

王松:大家好,我来自未来智能。这是我第二次创业,对我而言,这是一次全新开始。我此前的技术背景主要集中在软件领域,这次创业则让我踏入了硬件领域,这与我之前的经历形成了鲜明对比。因此,我非常荣幸能受邀与大家分享我的创业历程以及行业最新进展。

观察者网:你们团队中许多成员都来自软件领域,之前与科大讯飞也有一定联系,为何选择独立创业并进入AI硬件领域?

王松:我们团队最初在科大讯飞内部,最开始做的是一个名为灵犀的语音助手,这是一款纯软件的语音助手,始于2013年。当时,科大讯飞在国内语音领域处于领先地位,而Siri自2011年推出后,我们2013年开始做软件语音助手,也算是较早的尝试。

在此期间,我们尝试了通用语音助手,也涉足了多个垂直领域的语音助手,包括点歌、导航,甚至拨打电话等功能,与现在车机中的云助手相似。当时,已有部分用户在汽车中使用我们的产品,尽管那时汽车行业尚未像如今的电动车那样发达。在这个过程中,我们形成了一个判断:未来人机交互的主要方式将是语音交互,我们对此深信不疑。

ChatGPT的出现进一步坚定了我们的想法。基于这一判断,再加上当时科大讯飞已在一些垂直领域,如翻译机、录音笔等产品上尝试用AI赋能硬件,虽然当时还未涉足耳机领域,但我们认为可以尝试将AI与耳机结合。此外,耳机本身与语音有着天然的强关联,不易被手机替代,甚至我认为它永远不会被手机取代,或许未来会被眼镜替代,但那是另一个话题。综合以上三点,我们最终选择了AI与耳机结合的赛道。

观察者网:AI可以跟很多硬件结合,但你们率先选择耳机,是不是最看好耳机这个赛道?

王松:这也要从我们团队经历说起。2017至2018年,我们在科大讯飞内部开始着手耳机项目,当时产品名为莫比斯耳机,如今仍可检索到相关信息。该项目并不成功,原因在于当时整个供应链尚未成熟。我们试图在耳机中集成过多功能,甚至加入了心率传感器,但受限于当时的技术条件,导致产品整体不够成熟。直至2019年,我们才正式开启iFLYBUDS系列的研发工作。从那时起,我们便开始积累相关技术经验。2019年,我们着手研发第一代耳机,但实话实说,当时的产品也并不成功,用户在使用过程中确实提出了很多批评。由于第一代耳机存在诸多基础性问题,比如蓝牙连接不稳定、单边耳机无声等,用户体验并不好。究其原因,我们在耳机研发方面经验不足,导致这些问题频发。然而,耳机所搭载的AI功能却受到了用户青睐,因为它切实解决了用户的一大痛点,让用户对其爱不释手。

用户在使用过程中,确实是边用边骂。因此,从产品本身的角度来看是不成功的。但从验证使用场景角度来看,它却非常成功,让我们清晰地看到了未来的发展方向。当时,很多用户在开会时使用这款耳机进行会议录音,通过第一代产品的验证,“办公会议”这一使用场景已经变得非常清晰。因此,我们在后续的产品研发中,针对这一场景不断发现问题并加以改进。

观察者网:当时产品可能并不理想,用户反馈对你们后续改进有哪些深刻的影响吗?

王松:用户在使用过程中反馈了许多问题,尤其是在开会时使用耳机进行录音和记录。在这个过程中,出现了诸如数据丢包、蓝牙与手机之间的数据传输链路等问题。基于这些反馈,我们判断这是核心的技术挑战,因为其他耳机厂商通常不会遇到这种情况,只有我们在尝试将耳机用于此类场景时才会碰到。因此,我们围绕这一点进行了深入研究和改进。我们专注于蓝牙技术,优化蓝牙底层通信协议,并与手机进行更好的配合,调整手机和蓝牙耳机上的编码解码方式,以确保数据链路的高效和稳定。通过这些努力,第二代产品在这些问题上取得了显著改善,变得更加稳定,基本解决了第一代产品中出现的丢包、断联、无声等问题。

观察者网:当时总结起来还是要先把耳机本身做好?

王松: 我们总结了一个重要的经验,称之为“5+X”经验。未来硬件产品都遵循类似的逻辑,只是不同的硬件产品前面的“N”可能不同。对于耳机来说,这五个基础要素是:音质、续航、降噪、佩戴和设计,缺少任何一个,耳机都很难在市场上取得成功。后面的“X”是我们所说的AI功能。只有当这五个基础要素具备后,耳机作为一个基础产品才能好用。再加上后面的“X”功能,即AI功能的加持,用户才更有可能买单。

观察者网: 目前许多消费电子巨头也在开发AI耳机,比如苹果、小米等,他们都在将AI技术与硬件结合。而且从AI技术本身来看,很多技术都是开源的。如果企业都能轻易地将AI与硬件结合,那你们如何构建自己的护城河?

王松:我也常被投资者问及这个问题。从AI本身来看,大家对AI的共识是存在的。以目前流行的Agent为例,大家对Agent的共识是:大模型作为大脑,需要有记忆功能,并且能够帮助用户真正落地完成任务。但Agent如何应用、在哪些场景中应用,则是百花齐放的。因为每一家的Agent都不一样,尽管底层的几个关键点是共性的。回到AI耳机或AI硬件,逻辑也是一样的。AI耳机必须具备基础能力,比如识别、翻译、合成以及大模型等。但将这些能力应用到哪些场景中,每个耳机厂商的做法都不一样。以我们的耳机为例,主打场景,至少在国内甚至全球范围内都没有竞争对手,因为我们对这些垂直场景的理解是最深的。

我们既没有护城河,又拥有很深的护城河。说没有护城河,是因为对于全球任何一家公司来说,现在的技术都是共通的。大模型这种高深的技术,中国也能迅速赶上,OpenAI前几年处于领先地位,但如今也被赶超了。作为一家创业公司,我认为所谓的技术护城河是不存在的。但我们的护城河又很深,对特定场景的理解,可能大公司不愿意涉足,因为它们太小众;而对于小公司来说,想要进入又很难,尤其是涉及硬件和对场景的深度理解。我们在蓝牙协议层、通讯层做了很多优化工作,要做好这一点其实非常困难。所以,我认为我们的护城河很深。对于AI加硬件,我认为还是要从场景出发,基于场景去做硬件。

观察者网:深耕这些垂直场景,是不是会给你们积累更多经验和数据,从而为AI在垂直领域的应用带来优势?

王松:是的。虽然现在大模型能力很强,但它所具备的数据大多是公开的公域数据,大模型并不具备私域数据。这也是为什么大家都在做垂直领域的大模型。无论是金融、法律还是医疗领域,这些垂直领域的私域数据加上大模型的能力,可以打造一定的数据壁垒。未来,数据从一定层面上来讲是一家公司的核心资产。底层技术其实都相通,基于这些数据再加上大模型,我们如何调优、如何为用户提供更个性化的服务,这是我们未来需要考虑的问题。

观察者网:目前你们产品底层AI能力是如何构建的?现在很多硬件产品都采用端云协同的路线,你们是如何做的?

王松:我们的底层路线也类似,今年5月的发布会上提出了“一脑多端”的战略。我们的产品包括耳机和PC端使用的一个硬件产品Kit,这两个产品可以联动,大脑就是viaim大脑,可以简单理解为背后的大模型。不同的硬件接入到这个大模型中,端侧收集的数据,就像我们刚才提到的私域数据,进入大脑。大脑为各个端的硬件提供统一服务,不同端之间也会联动。

比如耳机和Kit,以及未来我们将推出的其他形态的硬件,它们之间会有许多协同配合。我举个例子,现在智能眼镜很火,但它具备耳机功能,其实是一种开放式耳机。不过,目前眼镜的续航、重量、佩戴舒适度等方面还达不到普通眼镜的标准。所以,是否可以将眼镜的部分功能,比如开放式耳机功能,与我们的耳机匹配起来?这样眼镜本身可以做到更轻,佩戴起来也不会那么难受。我们会从用户场景和体验出发,优化硬件端的佩戴体验。

观察者网:是否可以理解为,不应该将所有功能集中在一个终端上,未来将是多终端的发展趋势?

王松:我认为未来5到10年内需要多终端的配合,耳机肯定需要视觉能力的配合。但目前眼镜的供应链还不成熟,只能主打某一场景,无法像手机那样通用。所以,我判断未来至少在5年内,穿戴式硬件仍将聚焦于某一场景。但5到10年后,随着技术、供应链的成熟,可能会出现下一代通用的计算平台,像现在的手机一样,适用于任何场景。

观察者网:是否可以理解为,眼镜供应链现阶段还不成熟,所以让眼镜做它擅长的事情,耳机做耳机擅长的事情?

王松:很多人问我,未来眼镜是否会替代耳机?我认为在未来5年内,这种情况不会发生。耳机目前具备的一些功能,如降噪功能,是眼镜目前无法实现的。例如,在地铁或飞机上,开放式耳机由于其特性,很难让用户清晰地听到声音。因此,在这些场景下,耳机仍然具有不可替代性。然而,5年之后,随着供应链和技术的成熟,眼镜可能会通过人体工学设计等方式整合耳机功能,从而替代耳机。但至少在短期内,我认为这种情况不会出现。

观察者网:如何理解viaim大脑的技术架构?与纯软件方案本质上有哪些差异?

王松:作为一家硬件公司,在设计大脑架构时,我们更多地从硬件层面出发。以耳机为例,上一代耳机在硬件结构和算法设计上,并未考虑AI功能。传统耳机主要为人耳听音设计,只要通话清晰即可。例如,在嘈杂环境中打电话,只要对方能听清声音就行。但AI耳机不同,它是人类与AI交互的入口。以我佩戴的AI耳机为例,它只需让AI听清、听懂我的话,人耳是否能听清并不重要。从数据链路、协议到蓝牙协议层面,都需要做出改变以适应AI耳机。以ENC算法为例,它会影响语音识别算法的准确性。如果识别算法不准确,转录的文字不准确,输入到大模型中的数据也会不准确,从而导致生成的答案不准确。因此,在设计大脑架构时,我们从硬件层面出发,优先考虑让AI能够听懂。我们也希望国内大厂能推动国际蓝牙联盟从底层协议层面做出改变,因为当前的蓝牙协议已不适应AI耳机发展。

观察者网:说到蓝牙协议,国内很多企业正在组成了星闪联盟,你们有与他们接触吗?

王松:华为的星闪协议本质上是从2.4G链路出发,优化蓝牙和Wi-Fi(两者均为2.4G协议)的传输效率,但并未从大模型层面思考问题。具体来说,蓝牙耳机工作时有两种状态:通话状态(HFP)和听歌状态(HDP)。我认为还应增加第三种协议,即AI语音协议。这种协议从语音数据进入耳机开始就不一样,其数据收集方式就应与通话和听歌不同,是从协议底层开始改变。星闪协议并未从这一层面出发,而是侧重于优化数据链路本身的传输效率,因此与我们的需求有所不同。

观察者网:星闪协议与蓝牙协议可以说各有优势?

王松:是的,它们各有优势。

观察者网:AI会议耳机可能会涉及一些敏感场景,如商务办公可能会涉及商业机密。在具体应用场景中,你们如何处理效率与隐私安全的问题?

王松:隐私问题确实是许多用户,包括我们自身都非常关心的。随着智能设备时代的到来,大家对隐私关注度越来越高,无论在海外还是国内。未来,穿戴设备可能会处于“始终在线”的状态,例如我们的耳机可能会24小时在线,持续收集周围的声音和视觉数据。以智能眼镜为例,其拍摄功能可能在无意识、不知情的情况下侵犯他人隐私。

从隐私保护角度来看,我们主要从两个层面考虑。首先是技术层面,我们采用了端到端的加密保护措施。从语音数据进入耳机的那一刻起,就会进行加密处理,一直到手机端、云端,再返回耳机,整个链路都进行了加密。这是技术层面的保障,我们也在使用业内先进的加密算法。其次是制度和人性层面。许多用户会问,使用我们的耳机录制会议后,员工是否会查看会议数据,这是一个很自然的问题。但我们认为,用户对品牌的信任至关重要。例如,大家在使用腾讯会议或飞书会议时,通常不会担心腾讯或飞书的员工会查看会议记录。这是因为用户对这些大厂已经建立了某种信任,相信它们会在制度层面杜绝此类事件的发生。对于我们来说,我们也需要不断强化用户的认知,建立用户对我们品牌的信任。从公司成立的第一天起,我们就立下规矩:员工不得触碰用户数据,这是一条红线。

观察者网:未来你们是否会侧重端侧AI能力,将更多隐私权交给用户?

王松:我们最近上线了全离线功能,数据都在用户手机上,只要断网,用户依然能使用这些功能。手机算力比耳机强很多,至少强100到1000倍。因此,全离线功能可以让用户在不联网的情况下依然使用AI能力。未来我们会将更多能力离线化,甚至在耳机上也会有一些离线功能,但耳机算力有限,可能需要5年左右才能运行一些小模型。从端到端的加密措施、企业制度、品牌认知建立以及全离线能力等多维度保护用户隐私,这非常重要。

观察者网:除了耳机,你们未来是否会进入其他硬件赛道?

王松:一定会。我们目前的产品不仅包括耳机,还有PC端的Kit。我们选择耳机的初衷是基于语音交互的考虑。未来除了耳机,用户在办公场景中可能更多地在办公桌前,不一定佩戴耳机。因此我们会从场景出发,思考如何将语音交互融入办公过程。我们会基于这一思路决定开发哪些硬件。目前,我们已经在研发一些新硬件产品。下半年或明年可能会推出新品,这些产品将围绕我们的viaim大脑和办公会议生态,让用户办公更加轻松。

观察者网:除了耳机,您最看好那个AI跟哪个硬件结合?

王松:我个人比较看好眼镜的未来。不过,我们现在没有做眼镜的原因,是因为目前的供应链还不成熟,用户教育也有一定难度。尽管AI眼镜概念很火,但每年的出货量其实并不多,可以说是叫好不叫座,所以我们在这一块相对比较谨慎。但我个人是比较看好眼镜形态。眼镜本身具备视觉和显示能力,也有听觉能力,是一个相对比较完整的形态。

观察者网:现在很多眼镜是不是处于缺少内容和原生应用的状态?您认为眼镜的理想状态应该是什么样的?

王松:从两个层面来讲,一方面眼镜的内容生态需要建立,就像最初iPhone的崛起,先是有了硬件,大家觉得硬件好用,然后吸引了众多开发者,形成了App Store生态,这是一个螺旋式上升的过程。未来眼镜也会走类似的路线,前提是硬件一定要好用,先让硬件普及,才会有更多开发者加入,生态才会逐渐建立起来。这是一个循序渐进的过程。未来两三年后,随着眼镜技术的成熟,它会大幅改进耳机的局限性。耳机可能天生有缺陷,未来可能只是某个辅助或特定场景下的设备,而眼镜可能会在更多场景中发挥主导作用。不排除未来还会有其他形态的硬件出现。比如之前失败的AI Pin,它也做了一些很好的尝试。还有前几个月泄露的OpenAI与前苹果设计总监合作研发的胸前佩戴设备,也是一种可能的硬件形态。

观察者网:在“一脑多终端”的战略下,这些设备是不是可以协同起来?

王松:是的,我认为它们不是互相取代,而是协同。在技术不成熟的时候,每个设备在某个场景上都有独特的优势,可以和其他设备协同。未来可能会有一个设备发展成像现在手机这样的通用设备,但还需要很长时间。

观察者网:眼镜的发展不仅需要硬件成熟,也需要AI能力进一步提升。AI耳机的AI能力如果按照智能驾驶的L1到L5级划分,现在可能处于哪种状态?

王松:我认为现在最多只到L1级别。我和内部的同事也在讨论,之前OpenAI发布了一个从L1到L5的Agent定义,我认为耳机基本上可以套用那个逻辑。目前耳机还处于比较初级的L1级别,什么时候能到L2或者L3?有可能在未来两三年内会实现。

观察者网:这还需要大模型算法等能力的进一步进化?

王松:大模型算法现在可能已经接近极限了,因为某些Agent已经发展得相对比较好了。但如何将这些Agent与耳机结合,是一个需要探索的点。

观察者网:你们在下半年或未来几年将着重发力哪些方面?

王松:首先是AI硬件,其作为人类的“耳朵”和“眼睛”,如何更高效地将周围数据传输至AI大脑,这是需要研究的第一点,无论是听觉还是视觉数据。这些数据并非为人眼观看,而是优先让AI理解并处理。其次,由于我们本身不研发大模型,因此在大模型层面更多依赖业内巨头的进展。但我们会在大模型基础上进行开发,如刚才所讨论的,将私域数据融入大模型体系,为用户提供更优质、个性化的服务,这是我们需探索的方向,也是我们的优势所在,必须深耕垂直场景进行优化。

观察者网:未来智能在出海方面,目前海外市场的拓展情况如何?

王松:我们从去年开始在海外进行试点,在东南亚的新加坡进行试点,今年则拓展至北美、日本,并计划下半年进入欧洲。目前,我们正在积极布局海外市场的线上线下渠道,海外市场是我们未来的主战场。

观察者网:海外与国内市场的理想占比大概是多少?

王松:参考业内一些成熟或成功的公司案例,海外市场的比例通常大于国内市场。

观察者网:海外市场也存在一些挑战,比如涉及AI方面的法律法规?

王松:是的,海外对隐私保护特别关注,包括海外用户在硬件、软件使用习惯上与国内用户存在差异,甚至在模型层面也有一些需要适配和适应当地条款或习惯的地方。

观察者网:好的,今天的对话就到这里,谢谢。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。