当前位置: 首页 » 资讯 » 新科技 » 正文

VLA、世界模型与一副AI眼镜:理想在押注怎样的未来?

IP属地 中国·北京 钛媒体APP 时间:2025-12-03 22:11:04


理想 AI 眼镜 Livis

理想决定把“眼睛”也做了。

在理想 AI 眼镜 Livis 还没正式发布之前,作者在北京研发总部戴上了这副眼镜,又和理想汽车高级副总裁范皓宇、基座模型负责人陈伟聊了很久——聊产品,也聊他们想象中的理想汽车“下一幕”。

越聊越确定一件事:Livis 不是简单的车企跨界玩具,而是理想把自己从0-0.1的公开验证。

一、车企为什么非要做一副AI眼镜?

2024 年下半年开始,AI 眼镜市场被戏称为“百镜大战”:从互联网公司到手机厂商,几乎所有大厂都端上来一副“会拍照、会翻译、会聊天”的眼镜,争夺用户身边那块离大脑最近的硬件入口。

现在,理想也来了。

官方今天正式宣布,发布理想 AI 眼镜 Livis,售价 1699 元起,并携手蔡司做光学与镜片生态;蔡司渠道门店也会成为这款眼镜的展示和销售阵地。

在理想的内部话术体系里,“机器人”是一个反复出现的高频词。

陈伟的定义很清晰:“我们公司有汽车机器人、空间智能体、充电机器人和穿戴机器人不同的形态,这三点构建了理想未来有成为全球领先的人工智能终端公司的一个核心关键要素。”

而在一份对外材料里,理想甚至这样概括他们的世界观:具身机器人,是把最常用的工具赋予“眼睛”、“大脑”、“心脏”;汽车是跑在路上的汽车机器人,升级后的智能座舱是会思考的空间智能体,智能进化后的充电站是自动服务的充电机器人,而 AI 眼镜,则是戴在头上的穿戴机器人。

这也是为什么,理想在组织架构上专门立了穿戴机器人部门——Livis 是穿戴机器人部门量产的第一代产品,而不是某个业务线的小试牛刀。

当外界还在把 AI 眼镜当成“新一代智能配饰”的时候,理想直接把它归类到“穿戴机器人”。

这背后是一个明显更激进的设想:所有与用户高频交互的终端,本质上都是“机器人本体”。

在自动驾驶和理想同学上,理想已经公开过自己的 VLA路线:用视觉 + 语言 + 行动的大模型,把“认知智能”和“空间智能”揉成一个统一的智能体,从 L3/L4 级自动驾驶一路演化到 AGI 终端。

Livis 的出现,就是把这条路线从车内,延伸到了车外。

二、名字、OS 和 App 背后的心思

在理想的命名体系里,AI 眼镜这件事听上去有点绕:眼镜叫“理想 AI 眼镜 Livis”,系统叫 Livis OS,用户在手机上打开的App 入口却还是熟悉的「理想同学」。

这串名词之间的关系如何理顺?

范皓宇先强调了一件看起来很保守的事:“首先我们要尊重历史,理想汽车这个名字已经根深蒂固了,理想同学也根深蒂固了,没有必要去修改。”

在他看来,理想汽车和理想同学已经深植用户心智,没有必要推倒重来。

在这个前提下,Livis 成了一个“面向未来的后缀”:

“Livis 指的是我们现在的 AI 系统和 AI 终端,理想 AI 眼镜 Livis,这是全称。Livis 是后缀,意味着 Livis 只是开始,可以理解为 Livis 是围绕人、各种 AI 生态所起的系列品牌名。”

更有意思的是品牌呈现策略——至少在首代产品上,理想刻意把 Livis 这个名字“压得很低”。


理想汽车高级副总裁范皓宇

范皓宇表示,“我们对外沟通的时候,Livis 相对来说放得比较弱,因为在产品没有走量、没有真正大规模销售的时候,可以看到眼镜外面是看不到 Livis 的大 logo 的,等到用户量不断积累起来,当我们的终端不断更加丰富以后,Livis 才真正是一个品牌。”

换句话说,这是一个先把体验做成好眼镜,再慢慢长出“Livis 品牌”的节奏,而不是反过来靠品牌故事抬溢价。

在软件层面,理想同学 App 的重新设计则透露出另一条逻辑:App 里有 5 个 tab:使用入口、记忆(时间线)、车控、眼镜,以及后续要扩展的 Agent 等功能;眼镜反而排在第 4 个 tab,车控是第 3 个,理想同学则始终站在第一层入口。

这背后的产品观是:Livis 不是一个孤立的硬件,而是 Livis OS 体系下众多“本体”之一。真正的主角,仍然是那个贯穿全场景的 AI 助理——理想同学。

在海外市场,理想同学直接就叫 Livis。简单一句话可以概括这种关系:Livis 是系统底座,理想同学是系统里那个最重要的“人格化接口”。

对理想来说,车主与科技爱好者都是目标用户:既希望 Livis 成为理想车主自然的延伸装备,也希望它像 AirPods 之于苹果生态那样,具备一定“反向拉新”的能力——你未必是理想车主,也可以先戴上 Livis,体验一把理想式 AI。

三、从“最强附件”到穿戴机器人:Livis 的产品力够格吗?

在 AI 眼镜这条赛道上,功能清单已经很难拉出差异:拍照、录像、实时翻译、物体识别、听歌识曲、语音助手……几乎所有玩家都在做。

理想选择的突破口有两条:“空间交互 + AI 能力”,以及第一视角的结构化记忆。

1、要轻、要久,还要能跑 AI

硬件层面,Livis 的设计目标相当明确:要轻、要戴得住、要长续航,同时要跑得动 AI。

这也是为什么项目推进过程中,团队曾经“返工”一整块底层能力。

范皓宇坦言:“去年年底就开始干,到今年年初正式启动,我们达成续航标准以后会发现响应速度比较慢,大家很难受,后来大家下决心重新改一下,基本上花了两三个月的时间把 ISP 重构。”

更细节的一个点是芯片基线——恒玄这颗芯片第一次上眼镜,很多基础能力都要双方联手从 0 搭起来:“恒玄这个芯片在眼镜上是第一次用,它没有眼镜基线,这个眼镜基线是我们团队和恒玄一起开发的,这中间好几次都会觉得做不到,但当越来越接近这个结果的时候,信心就越来越足。”

在理想内部,对于硬件的看法是高度统一的。陈伟讲得很直接:“我们现在在做眼镜的时候同样也在面临一个问题,我们依然觉得传感器、本体和整个硬件的能力,决定了 AI 未来智能的上限。”

今天,这更多体现在“拍得清、听得清、用得久”;未来,当这些传感和本体的数据被接入世界模型,它会变成提升 VLA 能力的上限约束。

2、时间线记忆:不是“相册 + 录音机”的简单叠加

Livis 最有辨识度的一点,是以“时间线”为核心的记忆设计。

在理想同学 App 里,无论是问答文本、语音记录、照片还是视频,都被揉进同一个 Timeline——它不是单独的相册、录音文件夹,而是一段段带完整上下文的“记忆片段”。

范皓宇用他自己的生活举了个例子:减脂、做饭、记录家庭生活。

对他来说,回看时间线的时候,看见的不是一张孤立的饭菜照片,而是当时的提问、回答、画面和语音,被系统结构化成一个完整场景——它更像是“记忆录像带”,而不只是素材库。

从模型视角看,这套设计是深度绑定大模型路线的。陈伟概括得很简单:“VLA 是我们思考模型的范式,V 是感知外部信息,L 是基于感知信息以后做理解、规划和决策,A 是最终产生行动。”

在这种范式下,时间线不是 UI,而是模型的长期记忆接口——用户看到的是“记忆”,模型看到的是“训练数据和世界状态”。

3、车控与多端协同:从“车钥匙”到“空间遥控器”

AI 眼镜控车,是理想这次主打的卖点之一:用户可以通过眼镜远程解锁、控车,今后还会逐步开放召唤、自动泊车等能力,只是目前受法规限制,部分功能暂时无法直接上线。

更有意思的是三端之间的“权力分配”。

范皓宇把车、手机、眼镜这三类终端概括为:“一个是长期佩戴,一个是长期揣兜,还有一个是触摸记录。当这三个东西汇在一起的时候,我们是一个比较符合用户预期的组合。”

逻辑是:车内优先——进车后,“理想同学”的唤醒权优先给车机;但当你说“帮我拍个视频”这种车机做不到的事时,系统又会自动把指令转给眼镜: “比如我在车里说帮我拍视频的时候,车没有这个能力,于是它自然唤醒眼镜,眼镜开始拍摄。所以你不要想太多,你说就好了,因为这些设备都是我们体系内的。”

在音频交互上,眼镜可以同时接两路蓝牙信号。范皓宇很在意的是用户的无感切换体验:“我们想提供给用户的是该点的地方点一下就 OK 的感受,而不是说需要设置、再切换应用,做很多工作。”

可见,理想正在试图把 Livis 打造成一个空间交互的“遥控器”与“第一视角摄像机”合一的穿戴机器人,通过车、家、手机、工作场景,来提高眼镜的存在感。

四、Livis 在理想战略版图里的位置

如果只从硬件做工、功能清单来审视 Livis,很容易得出一个保守判断:“这就是一副做得还不错、车控能力更强一点的 AI 眼镜。”

但站在理想的世界观里,Livis 的角色要更“上游”一些——它是VLA 模型和世界模型的一个具身化入口。

陈伟对于 VLA 和智能体的理解,几乎可以看作理想 AI 战略的中心思想:“VLA 解决了一个问题,就是怎么能够真正做出一个智能体,能够自主解决问题,为目标而服务,最终完成任务。”

在他看来,从 VA 到 VLA,不仅仅是多了一个字母,而是智能体阶段的标志:“我们认为未来的物理世界的智能体,以自动驾驶为例,它大部分时间是相对快思考的,但是面向复杂场景、困难问题的时候,不应该只靠数据从 V 直接到 A,而更应该引入 L,让模型有非常强的逻辑推理和思考能力。所以,我认为 VLA 是 VA 的下一代。”


理想汽车基座模型负责人陈伟

而要让 VLA 真正进化,世界模型是必选项:“未来对于物理世界和数字世界,我们都非常相信会是以 VLA 构建的智能体模型,且通过与世界模型的实时交互,通过强化学习持续进化。”

在车内,VLA 的“本体”是汽车。在车外,VLA的本体则是Livis,它能够持续学习物理世界的数据。

陈伟的话点出了这里的关键:“我们在眼镜摄像头采集的第一视角数据,以及多麦克风采回来的语音,以及触控的模态数据,将来能够持续提升模型感知和学习物理世界的能力,才能有机会真正把空间交互体验做得更好。”

如果说理想 i8 搭载的 VLA 司机大模型,是一次“空间智能体”的集中展示——在车里开得更稳、更像有经验司机;那Livis,就是把这套 VLA 能力从“驾驶舱”扩展到更多场景,让 AI 不再只存在于车机屏幕,而是存在于你眼前看到的世界。

从这个角度看,Livis 不是“车企顺手做的一副 AI 墨镜”,而是理想用来证明自己“有资格讲 AGI 终端故事”的关键一环。

五、Livis,会是理想的 AirPods 时刻吗?

说到这里,很容易滑向“伟大叙事”:自研 VLA、大模型、世界模型、穿戴机器人、空间机器人……

但作为一家已经上市、Q3财报业绩压力不小的车企,理想在 AI 眼镜这件事上,并不只有浪漫。

交流中,当被我问到“这究竟是用户驱动还是战略驱动”时,范皓宇的回答很现实:“这两个都得有,既要、又要、也要,如果我们在公司干了一件和航道、赛道完全不相关的东西,这不现实,也不可能让你立项。”

他的态度很明确:既不做“跟主航道无关的酷玩意”,也不做只写在 PPT 里的战略项目。

因此,团队配置采用的是“资源复用 + 新形态探索”的方式:

做语音的同学,同时承担车内与眼镜的语音能力; 做 ISP 调校的工程师,从 L9 和 MEGA 的流媒体后视镜迁移到 Livis 摄像头; 嵌入式工程师从方向盘、座舱 ECU 转身投入眼镜项目。

项目不是“另起炉灶的消费电子 BU”,而更像是理想在既有能力基础上的一次延伸。

问题在于,这种做法虽然在资源利用上相对克制,但依然绕不过一个残酷问题——AI 眼镜这门生意,短期内很难给财报带来什么好看的数字。

在汽车主业增速承压的背景下,把有限的高级工程师时间投到一个早期品类上,是“战略远见”,还是稀释主战场火力,资本市场未必会给出一致答案。

如今,说“生态”的企业太多,以至于“生态”二字几乎成了 PR 高频词。

有意思的是,范皓宇在交流中反而刻意避之:“我本来不想提‘生态’这个词,因为一提生态,大家都会觉得很宏观,我们的做法是从一个产品出发,把单点打穿打透,然后才去扩展更多穿戴机器人不同品类。”

换句话说,理想不想一上来就把自己包装成“汽车版苹果生态”。

然而,车企做AI眼镜这件事,究竟是在铺一条面向 AGI 的长坡厚雪,还是在给自己加一层短期难以见效的战略负担?这是一个悬而未决的问题。

Livis 能否成为理想 AI 战略的“AirPods 时刻”,答案或许会在未来一两年里揭晓。(作者|李玉鹏,编辑|李程程)

更多对全球市场、跨国公司和中国经济的深度分析与独家洞察,欢迎访问 Barron's巴伦中文网官方网站

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。