![]()
作者 | 陆
邮箱 | xiaoyu@pingwest.com
在博鳌亚洲论坛举办前夕,OpenClaw 引发了一场全球养虾狂欢,AI 在屏幕那端自主执行指令的画面,让不少人在此前没有接触过 AI 的用户认为科幻照进了现实。
在这个背景下,vivo 总裁、首席运营官兼中央研究院院长胡柏山提出了一个不太一样的问题:AI 现在能干很多事,但它对真实世界的感知,几乎为零。他在演讲里用了一个比喻:“没有感知能力,AI 就像是困在黑屋子里的大师,算力再强,也看不见咫尺之外的世界。”
![]()
vivo 总裁、首席运营官兼中央研究院院长胡柏山 图源:vivo
这句话是这次博鳌 vivo 传递的核心信号的起点,也是理解 vivo 接下来所有动作的前提。
1
演唱会神器、旅拍神器——但这只是开始
在很长一段时间里,vivo 给外界留下的强烈印象有几个关键场景:在演唱会上配合增距镜轻松拍到台上歌手清晰的表情;旅行途中的随手拍,颜色和光影都舒服得像胶片。这些标签不是没有道理,vivo 在影像上耕耘了很多年,这是真实的产品积累换来的口碑。
但在本届博鳌论坛期间,胡柏山聊的东西,已经超越了“出片好不好”的范畴。
他在演讲里放了两个故事。
一个是宝哥,九年前意外失明,去年带着导盲犬阿尔法,靠一台 vivo 手机环游中国。vivo 的 AI 功能帮他“看见”了每一个人的样子。在南澳的渔船上,手机告诉他:“面前是你的朋友章喜德,他双臂交叉,面带微笑,穿着一件深色长袖。”
另一个是诺子,因视觉神经损伤失明的美院学生,最大的愿望是去冰岛感受世界的尽头。去年她如愿了,站在冰河湖旁,手机帮她描述:“湖面漂浮着冰块,游客在拍照,远处有海鸟飞过。”
如果这两个故事放在发布会 PPT 里,很容易被当成情感包装。但放在胡柏山对影像的整体判断里,它们指向的是同一件事:影像技术真正的上限,不是把照片拍得更好看,而是让机器能够真正“读懂”它所看到的物理世界。
这种落差本身就是个有意思的信号:一家长期凭“影像手机”圈粉的公司,现在想用“影像”讲一个完全不同的故事。
1
AI 有一个没人愿意承认的短板
过去这两年,AI 的进展快得有点让人应接不暇。写作、代码、绘图、视频,一个接一个地被攻克,而最近爆火的“龙虾”甚至可以接管你的电脑帮你完成一些复杂繁琐的工作,于是用户慢慢形成了一种印象:AI 好像什么都会了。
但有一件事,目前的 AI 其实做得很差:那就是感知真实世界。
不是“看不见”,现在的大模型基本都有视觉能力,你把一张照片发给它,它能告诉你图里有什么。但“读懂一张图”和“感知物理世界”之间,差着一个本质的台阶。前者是被动接收,后者是主动理解——理解光线、空间、位置关系,甚至理解一个人当下的状态和情绪。
用胡柏山的说法来理解这个差距,会更直白一些:当今的 AI 是“数字世界里的大师”,它在那个世界里能创作、能推理、能给人提建议。但它没有办法直接作用于物理世界,更没有办法改变它。它就像一个博览群书、足不出户的人——知识量惊人,但没有真正“出过门”。
这个短板,目前没有哪家公司完全解决了。但它是一道必须过的关:如果 AI 永远只活在屏幕里,所谓的“通用人工智能”就始终是一句空话。
让 AI 真正走进物理世界,需要一套感知系统。而感知系统的核心,是影像。
1
影像在做的事,不单单“记录”,更是“感知”
在会上,胡柏山提到了一件内部的事:vivo 今年正式成立了一个新的一条“长技术赛道”:感知赛道。
![]()
vivo 总裁、首席运营官兼中央研究院院长胡柏山 图源:vivo
这个措辞值得停留一下。在 vivo 的内部语言里,“长赛道”往往意味着天花板足够高、值得持续十年投入的方向。比如影像就是一条已经被验证的长赛道。现在感知被提升到同等级别,说明 vivo 的判断是:这条路至少要走十年,而且它的意义不止于手机。
影像技术在过去几年里一直是手机厂商的核心战场,但几乎所有人的叙事框架都停在同一个层面:主摄传感器更大、进光量更多、长焦对焦更快速、夜景更亮。这些进步是真实的,只是它们的目的地一直是“拍出更好的照片”。
vivo 现在想改变的,是这个目的地本身。
感知系统做的事情不是“拍下来”,而是“读明白”:读懂光影,读懂空间,读懂场景里发生了什么,甚至读懂人的情绪状态。
这件事的重要性在于:这恰好是 AI 走出数字世界、落地物理世界所缺少的那一环。图像感知加上声音感知,构成了 AI 理解物理世界的基本能力。没有这套感知能力,AI 再聪明,也只是屏幕后面那个很会打字的助手。
胡柏山表示:未来模型会越来越同质化,开源的速度越来越快,大家之间的差距越来越小。但感知系统不一样,因为它采集的是真实物理世界的场景数据,而每个品牌的用户群体不同、使用场景不同,积累下来的场景数据就会不同,这个差异是不可复制的。
他举了特斯拉 FSD 的例子:特斯拉的辅助驾驶模型可以公开,但它的道路数据不会公开。模型有可能被追上,而场景数据才是真正的护城河。
把影像从“记录工具”升级为“感知系统”,这也让 vivo 在影像上的长期投入,有了一个新的解释框架——不只是为了让照片更好看,而是在为 AI 打地基。
1
手机下一步变成什么?一个有记忆、懂你的 Agent
理解了 vivo 为什么把影像当成感知的关键能力,再来看 vivo 对手机下一阶段的判断,就不会觉得突兀了。
vivo 的判断是:手机从 Smartphone 进化为 Agent Phone,是确定性的趋势,只是现阶段受制于端侧算力和带宽,进展需要一步一步来。
Agent Phone 这个词现在很多公司都在说,但大家的理解深浅不一。vivo 对它的定义,落脚点在“个性”和“知识图谱”这两件事上——每一个用户的 Agent,应该是专属的,而不是把同一个基准模板套在所有用户身上。
这不是一个新鲜的理想,但实现路径有讲究。vivo 的方式是从影像入手:第一批是相机 Agent 和相册 Agent。拍照的时候用,整理照片的时候用,它不需要一直在后台持续运行,所以对硬件的压力在可控范围内。
相机 Agent 在 X300s 和 X300 Ultra 上已经有了初步落地。具体来说,过去用户拍照需要手动切换人像模式、长焦模式、微距模式,大部分人其实并不知道什么时候该用哪个。现在相机会根据拍摄对象的光线、距离、类型,自动识别场景,弹出它认为最合适的成像建议。
这更像是一个起点的声明,而不是终点的交付。
往后看,vivo 的规划里还有更多种类的 Agent:无论是办公的、出行的、游戏的,其实逻辑都一样——通过模型把过去需要用户手动设置或者根本做不到的事情,交给手机自动完成。
不过 vivo 对这个阶段的预期是克制的。胡柏山认为:2026 年能做好的,就是这些对算力要求相对可控的 Agent,真正做到对周边环境实时感知的能力,需要系统架构做更大的调整,这是 2026 年之后的事。
Agent Phone 是短期路径,是把手机从工具升级成“伙伴”的第一步。
1
长期的答案:影像 × AI,升级为感知中枢
vivo 这两年推出或者宣布的新方向不少:去年我们见到了 vivo Vision MR 头显的发布,传说中用来“对抗”大疆 Pocket 的云台相机也有望在今年底到来,而具身机器人实验室也已经成立。vivo 的这些动作,让外界有一种很自然的疑问:这家公司是不是摊子铺得太大了?
胡柏山对这个问题的回答,分了三个层次:记录世界、感知世界、改变世界。
“记录是被动的,它等待你的指令;感知是主动的,它替你观察环境的亮度、空间的纵深,甚至人际的距离;行动则是终极的,它基于理解,替你解决问题。”
现在的手机大部分还在“记录”阶段,往“感知”升级是近期的方向,而“行动”才能真正自主地作用于物理世界,这是 vivo 押注的远期目标。
为了走到那一步,vivo 的规划是以手机为起点,向外延伸出一整套以影像感知为核心的设备生态:手机作为感知源头和个人化数据的积累中心;vivo Vision MR 头显作为空间计算的训练场,理解空间结构和几何关系;云台相机、穿戴设备等生态终端作为移动触角;家庭机器人作为感知能力的最终落点:让 AI 真正进入物理世界,进入家里。
![]()
图源:vivo
去年 8 月,vivo 发布了 vivo Vision 探索版 MR 头显,已经在国内 20 多家体验店和东南亚部分市场落地,用户体验超过 5 万人。这款产品的定位是“探索”,有了实体载体,才能真正积累数据,验证认知。
胡柏山表示:vivo Vision 下一代要推进商业化,目标是 2027 年底或 2028 年初正式商用。
机器人方向则更早期。
vivo 去年成立了机器人 Lab,目前仍在实验室阶段,没有原型机,没有发布时间表。但胡柏山对这件事的思路很清晰:不做“全场景通用机器人”,而是聚焦年轻用户的生活场景,从单一高可行性的任务出发:比如宠物喂食,比如衣物收纳;先把一个场景做到能用,再逐步泛化。他用的词是“沿途下蛋”。
他还专门解释了手机和机器人的关系:手机是最了解用户的随身助手,知道你的生活习惯、饮食偏好、宠物信息,并且这些数据全部在本地,不上云。
当机器人能力还不够的阶段,用户可以通过手机远程查看、遥控操作;随着数据积累,机器人会越来越自主。这个路径和自动驾驶的演进逻辑一样——从辅助执行到自主决策。
这套逻辑说通了之后,再看 vivo 的产品布局,会发现它比看起来要更有结构:影像技术是那根主轴,其他产品是主轴延伸出去的不同分支。
1
最后
在这次采访里,有一个细节让我印象深刻。
当胡柏山被问到:AI 时代,到底是 AI 唱主角,还是影像唱主角?
他的回答是:在存量市场里,影像是拉长板的逻辑,继续把有高卷入度的用户留住。但要把存量市场变成增量市场,靠的是 Agent,让换机周期缩短,让更多人觉得旧手机不够用了。“影像+AI 两者其实并不冲突,只要东西好,手机就能成为生产力工具,用户就会觉得值。”
这个回答里有一种务实的底色。
vivo 讲的故事很大:感知系统、数字 DNA、机器人;但在落到产品层面时一直很具体:今年做好相机和相册 Agent、27 年后 MR 商用,更远的是机器人。
vivo 并没有喊出“我们要改变世界”的宣言,只是交出了一张分阶段的时间表,这条路究竟能走到哪,最终还是要依靠产品来交卷。
![]()
点个“爱心”,再走 吧





京公网安备 11011402013531号