当前位置：首页 » 资讯 » 新科技 » 正文

快门思维之上，vivo 想让手机学会“看懂”这个世界

IP属地中国·北京 硅星人 时间：2026-03-27 10:26:52

作者｜陆
邮箱｜ xiaoyu@pingwest.com
在博鳌亚洲论坛举办前夕，OpenClaw 引发了一场全球养虾狂欢，AI 在屏幕那端自主执行指令的画面，让不少人在此前没有接触过 AI 的用户认为科幻照进了现实。
在这个背景下，vivo 总裁、首席运营官兼中央研究院院长胡柏山提出了一个不太一样的问题：AI 现在能干很多事，但它对真实世界的感知，几乎为零。他在演讲里用了一个比喻：“没有感知能力，AI 就像是困在黑屋子里的大师，算力再强，也看不见咫尺之外的世界。”

vivo 总裁、首席运营官兼中央研究院院长胡柏山图源：vivo
这句话是这次博鳌 vivo 传递的核心信号的起点，也是理解 vivo 接下来所有动作的前提。
1
演唱会神器、旅拍神器——但这只是开始
在很长一段时间里，vivo 给外界留下的强烈印象有几个关键场景：在演唱会上配合增距镜轻松拍到台上歌手清晰的表情；旅行途中的随手拍，颜色和光影都舒服得像胶片。这些标签不是没有道理，vivo 在影像上耕耘了很多年，这是真实的产品积累换来的口碑。
但在本届博鳌论坛期间，胡柏山聊的东西，已经超越了“出片好不好”的范畴。
他在演讲里放了两个故事。
一个是宝哥，九年前意外失明，去年带着导盲犬阿尔法，靠一台 vivo 手机环游中国。vivo 的 AI 功能帮他“看见”了每一个人的样子。在南澳的渔船上，手机告诉他：“面前是你的朋友章喜德，他双臂交叉，面带微笑，穿着一件深色长袖。”
另一个是诺子，因视觉神经损伤失明的美院学生，最大的愿望是去冰岛感受世界的尽头。去年她如愿了，站在冰河湖旁，手机帮她描述：“湖面漂浮着冰块，游客在拍照，远处有海鸟飞过。”
如果这两个故事放在发布会 PPT 里，很容易被当成情感包装。但放在胡柏山对影像的整体判断里，它们指向的是同一件事：影像技术真正的上限，不是把照片拍得更好看，而是让机器能够真正“读懂”它所看到的物理世界。
这种落差本身就是个有意思的信号：一家长期凭“影像手机”圈粉的公司，现在想用“影像”讲一个完全不同的故事。
1
AI 有一个没人愿意承认的短板
过去这两年，AI 的进展快得有点让人应接不暇。写作、代码、绘图、视频，一个接一个地被攻克，而最近爆火的“龙虾”甚至可以接管你的电脑帮你完成一些复杂繁琐的工作，于是用户慢慢形成了一种印象：AI 好像什么都会了。
但有一件事，目前的 AI 其实做得很差：那就是感知真实世界。
不是“看不见”，现在的大模型基本都有视觉能力，你把一张照片发给它，它能告诉你图里有什么。但“读懂一张图”和“感知物理世界”之间，差着一个本质的台阶。前者是被动接收，后者是主动理解——理解光线、空间、位置关系，甚至理解一个人当下的状态和情绪。
用胡柏山的说法来理解这个差距，会更直白一些：当今的 AI 是“数字世界里的大师”，它在那个世界里能创作、能推理、能给人提建议。但它没有办法直接作用于物理世界，更没有办法改变它。它就像一个博览群书、足不出户的人——知识量惊人，但没有真正“出过门”。
这个短板，目前没有哪家公司完全解决了。但它是一道必须过的关：如果 AI 永远只活在屏幕里，所谓的“通用人工智能”就始终是一句空话。
让 AI 真正走进物理世界，需要一套感知系统。而感知系统的核心，是影像。
1
影像在做的事，不单单“记录”，更是“感知”
在会上，胡柏山提到了一件内部的事：vivo 今年正式成立了一个新的一条“长技术赛道”：感知赛道。

vivo 总裁、首席运营官兼中央研究院院长胡柏山图源：vivo
这个措辞值得停留一下。在 vivo 的内部语言里，“长赛道”往往意味着天花板足够高、值得持续十年投入的方向。比如影像就是一条已经被验证的长赛道。现在感知被提升到同等级别，说明 vivo 的判断是：这条路至少要走十年，而且它的意义不止于手机。
影像技术在过去几年里一直是手机厂商的核心战场，但几乎所有人的叙事框架都停在同一个层面：主摄传感器更大、进光量更多、长焦对焦更快速、夜景更亮。这些进步是真实的，只是它们的目的地一直是“拍出更好的照片”。
vivo 现在想改变的，是这个目的地本身。
感知系统做的事情不是“拍下来”，而是“读明白”：读懂光影，读懂空间，读懂场景里发生了什么，甚至读懂人的情绪状态。
这件事的重要性在于：这恰好是 AI 走出数字世界、落地物理世界所缺少的那一环。图像感知加上声音感知，构成了 AI 理解物理世界的基本能力。没有这套感知能力，AI 再聪明，也只是屏幕后面那个很会打字的助手。
胡柏山表示：未来模型会越来越同质化，开源的速度越来越快，大家之间的差距越来越小。但感知系统不一样，因为它采集的是真实物理世界的场景数据，而每个品牌的用户群体不同、使用场景不同，积累下来的场景数据就会不同，这个差异是不可复制的。
他举了特斯拉 FSD 的例子：特斯拉的辅助驾驶模型可以公开，但它的道路数据不会公开。模型有可能被追上，而场景数据才是真正的护城河。
把影像从“记录工具”升级为“感知系统”，这也让 vivo 在影像上的长期投入，有了一个新的解释框架——不只是为了让照片更好看，而是在为 AI 打地基。
1
手机下一步变成什么？一个有记忆、懂你的 Agent
理解了 vivo 为什么把影像当成感知的关键能力，再来看 vivo 对手机下一阶段的判断，就不会觉得突兀了。
vivo 的判断是：手机从 Smartphone 进化为 Agent Phone，是确定性的趋势，只是现阶段受制于端侧算力和带宽，进展需要一步一步来。
Agent Phone 这个词现在很多公司都在说，但大家的理解深浅不一。vivo 对它的定义，落脚点在“个性”和“知识图谱”这两件事上——每一个用户的 Agent，应该是专属的，而不是把同一个基准模板套在所有用户身上。
这不是一个新鲜的理想，但实现路径有讲究。vivo 的方式是从影像入手：第一批是相机 Agent 和相册 Agent。拍照的时候用，整理照片的时候用，它不需要一直在后台持续运行，所以对硬件的压力在可控范围内。
相机 Agent 在 X300s 和 X300 Ultra 上已经有了初步落地。具体来说，过去用户拍照需要手动切换人像模式、长焦模式、微距模式，大部分人其实并不知道什么时候该用哪个。现在相机会根据拍摄对象的光线、距离、类型，自动识别场景，弹出它认为最合适的成像建议。
这更像是一个起点的声明，而不是终点的交付。
往后看，vivo 的规划里还有更多种类的 Agent：无论是办公的、出行的、游戏的，其实逻辑都一样——通过模型把过去需要用户手动设置或者根本做不到的事情，交给手机自动完成。
不过 vivo 对这个阶段的预期是克制的。胡柏山认为：2026 年能做好的，就是这些对算力要求相对可控的 Agent，真正做到对周边环境实时感知的能力，需要系统架构做更大的调整，这是 2026 年之后的事。
Agent Phone 是短期路径，是把手机从工具升级成“伙伴”的第一步。
1
长期的答案：影像 × AI，升级为感知中枢
vivo 这两年推出或者宣布的新方向不少：去年我们见到了 vivo Vision MR 头显的发布，传说中用来“对抗”大疆 Pocket 的云台相机也有望在今年底到来，而具身机器人实验室也已经成立。vivo 的这些动作，让外界有一种很自然的疑问：这家公司是不是摊子铺得太大了？
胡柏山对这个问题的回答，分了三个层次：记录世界、感知世界、改变世界。
“记录是被动的，它等待你的指令；感知是主动的，它替你观察环境的亮度、空间的纵深，甚至人际的距离；行动则是终极的，它基于理解，替你解决问题。”
现在的手机大部分还在“记录”阶段，往“感知”升级是近期的方向，而“行动”才能真正自主地作用于物理世界，这是 vivo 押注的远期目标。
为了走到那一步，vivo 的规划是以手机为起点，向外延伸出一整套以影像感知为核心的设备生态：手机作为感知源头和个人化数据的积累中心；vivo Vision MR 头显作为空间计算的训练场，理解空间结构和几何关系；云台相机、穿戴设备等生态终端作为移动触角；家庭机器人作为感知能力的最终落点：让 AI 真正进入物理世界，进入家里。

图源：vivo
去年 8 月，vivo 发布了 vivo Vision 探索版 MR 头显，已经在国内 20 多家体验店和东南亚部分市场落地，用户体验超过 5 万人。这款产品的定位是“探索”，有了实体载体，才能真正积累数据，验证认知。
胡柏山表示：vivo Vision 下一代要推进商业化，目标是 2027 年底或 2028 年初正式商用。
机器人方向则更早期。
vivo 去年成立了机器人 Lab，目前仍在实验室阶段，没有原型机，没有发布时间表。但胡柏山对这件事的思路很清晰：不做“全场景通用机器人”，而是聚焦年轻用户的生活场景，从单一高可行性的任务出发：比如宠物喂食，比如衣物收纳；先把一个场景做到能用，再逐步泛化。他用的词是“沿途下蛋”。
他还专门解释了手机和机器人的关系：手机是最了解用户的随身助手，知道你的生活习惯、饮食偏好、宠物信息，并且这些数据全部在本地，不上云。
当机器人能力还不够的阶段，用户可以通过手机远程查看、遥控操作；随着数据积累，机器人会越来越自主。这个路径和自动驾驶的演进逻辑一样——从辅助执行到自主决策。
这套逻辑说通了之后，再看 vivo 的产品布局，会发现它比看起来要更有结构：影像技术是那根主轴，其他产品是主轴延伸出去的不同分支。
1
最后
在这次采访里，有一个细节让我印象深刻。
当胡柏山被问到：AI 时代，到底是 AI 唱主角，还是影像唱主角？
他的回答是：在存量市场里，影像是拉长板的逻辑，继续把有高卷入度的用户留住。但要把存量市场变成增量市场，靠的是 Agent，让换机周期缩短，让更多人觉得旧手机不够用了。“影像+AI 两者其实并不冲突，只要东西好，手机就能成为生产力工具，用户就会觉得值。”
这个回答里有一种务实的底色。
vivo 讲的故事很大：感知系统、数字 DNA、机器人；但在落到产品层面时一直很具体：今年做好相机和相册 Agent、27 年后 MR 商用，更远的是机器人。
vivo 并没有喊出“我们要改变世界”的宣言，只是交出了一张分阶段的时间表，这条路究竟能走到哪，最终还是要依靠产品来交卷。

点个“爱心”，再走吧

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

百度智能云博鳌发布十大智能体：智能体落地产业加速

亚马逊收购Sprout，押注人形机器人“情绪经济”万亿市场

2026杭州翻译公司推荐网站翻译互联网落地适配精准

苹果AI战略转向：开放Siri打破ChatGPT独家，重金留人对抗挖角潮

2026OpenClaw虾搞数据库-阿里云

阿里云：2026年DataClaw：如何让 Agent安全访问数据报告

全站最新

百度智能云博鳌发布十大智能体：智能体落地产业加速

亚马逊收购Sprout，押注人形机器人“情绪经济”万亿市场

2026杭州翻译公司推荐网站翻译互联网落地适配精准

苹果AI战略转向：开放Siri打破ChatGPT独家，重金留人对抗挖角潮

热门推荐

百度智能云博鳌发布十大智能体：智能体落地产业加速

亚马逊收购Sprout，押注人形机器人“情绪经济”万亿市场

2026杭州翻译公司推荐网站翻译互联网落地适配精准

苹果AI战略转向：开放Siri打破ChatGPT独家，重金留人对抗挖角潮

2026OpenClaw虾搞数据库-阿里云

阿里云：2026年DataClaw：如何让 Agent安全访问数据报告

Sora宣布停运：OpenAI 为何放弃视频赛道？

2026年工厂三维可视化技术盘点：谁将引领智能制造新浪潮？

心智观察所：OpenAI关停Sora，另一边是中国军团的崛起

OpenAI 宣布无限期暂停 ChatGPT 成人模式并关停 Sora 视频模型

重金“留人”！苹果狂撒 40 万美元奖金，只为防备 OpenAI 挖角 iPhone 设计师

维基百科发布编辑新规:投票表决通过，严禁使用 AI 生成或重写文章内容

广告语引众怒罗技中国深夜致歉：短视频组扣除全部绩效

苹果获谷歌Gemini完全访问权，利用蒸馏技术加速设备端AI模型开发

OpenAI 缩减非核心业务：断舍离后全力冲刺编程与企业市场