当前位置：首页 » 资讯 » 新科技 » 正文

和vivo总裁聊了聊，发现我对影像的理解太浅了。

IP属地中国·北京 差评XPIN 时间：2026-03-28 02:10:49

这两天差评君受 vivo 邀请来到了位于海南的博鳌亚洲论坛年会。
说起来我们还是第一次来参加这种大型的国际对话活动，差友们把排面打在公屏上。

关于博鳌亚洲论坛，给没听过的差友介绍一下，这其实是一个国际组织来的，他们每年都会在博鳌这个小镇举办一次年会——亚洲各国的政商大佬们和专家们聚在这里，坐着一起聊经济、谈合作，商量怎么把亚洲发展得更好。
所以每年面对不同的全球性挑战，以及科技发展趋势，博鳌亚洲论坛都会有一些新的议题。
那对于我们科技媒体来说，当然还是更加关心年会上的科技议题了。
在这方面，vivo 每年都会在博鳌论坛上给大家带来创新产品，分享科技战略，比如去年他们就展示了 MR 头显、6G 等领域的新技术，并宣布进军机器人赛道。

而今年 vivo 又展示了新的战略规划，其中让我印象最深刻的还是 vivo 总裁胡柏山在会上的讲话:
AI 想要真正从虚拟世界走进现实，就必须要能够做到主动感知和理解我们所在的这个世界，而想要建立起这种能看懂物理世界的感知能力，影像是一切的基石。
差评君翻译下来，就是别管是能打醉拳、翻跟斗的机器人，还是 OpenClaw 引发的养虾热潮，AI 跟世界交互才刚刚开始。
“不儿，这真的是因为蓝厂在影像上已经建立起优势，才这么说的吗？”
带着这个疑问，差评君在会后的媒体群访环节跟胡柏山聊了聊，总算是把这话题给聊透了，那咱们今天就顺着他的话，唠唠 vivo 的“影像 + AI ”大棋。
现场大家问了胡柏山很多问题，但总结下来，最核心的就两点：

第一，在咱们消费者这里，率先实现 AI 落地的肯定是手机，而手机的未来，是从现在的 Smart Phone（智能手机）变成 Agent Phone（智能体手机）。
虽然现在各种 AI 硬件层出不穷，什么AI眼镜、AI录音笔等等，但没有哪个设备能比手机更加普及，并且离人更近——你想想，手机 24 小时不离身，还能联动周边的一系列生态，天生就是做 AI 落地的载体。
当然，目前手机的处理器算力和内存带宽来说，想要跑大参数的模型还是有瓶颈的，所以 vivo 选择聚焦端侧 AI，先让 AI 在手机上流畅地跑起来，用端侧 Agent 解决用户的场景痛点，把体验值拉升起来。

说到这点，差评君也在现场问了胡柏山对于之前 AI 手机的隐私权限风险怎么看，他的回答也蛮直接了当的，就是用户的隐私权限和数据应该归用户自己来管理，所以手机必须得做好端侧 AI，关键数据都跑在本地，大程度降低在云端泄露的风险。
还有对于手机 AI 如何调用第三方应用能力的问题，他表示还是需要通过像 MCP 这种统一的协议来做，在标准的接口范围内，把事情做的有边界。
第二，即便现在 Al 是行业的“流量密码”，但是对于 vivo 来说，影像依旧是不变主角。Al 和影像不是谁替代谁，而是要融合起来，一起驱动智能生态的。

有点迷？那先来听听胡柏山透出的猛料，比如：
MR 头显的下一代要开始商业化；他们要把感知这条赛道做起来，把视觉和听觉这些感知能力整合到一起；以及 vivo 已经明确做聚焦室内场景的家用机器人了……等等等等，每一句话都透露了 vivo 接下来的大动作是围绕“影像 + AI ”的布局来的。
不管是演讲还是群访，蓝厂都在反复强调一个逻辑就是：没有影像，AI 在物理世界里就是“睁眼瞎”。
怎么理解这句话呢？我给大家拆解一下。
首先，大家应该都知道，AI 其实是没有感知能力的，它懂语言，但它看不懂我们的世界。

对于大多数 AI 来说，你扔给它的照片本质上只是符号和统计规律，而告诉它这些信息都代表了什么的，在过去是成千上万的人工标注员，他们通过手工框选贴标签，告诉 AI 图片中的水杯、桌子、车辆、宠物猫狗长什么样。
不过这两年不一样了，AI 自动化标注起来了，那些低端、机械化的标注活儿，AI 自己就能搞定，只剩一些复杂的高端标注还需要人来做。行业趋势也从“靠人力堆数据”变成了“ AI + 精细化人工”。

于是，现在你扔给 AI 一张图片，它基本可以给你描述清楚当中都有哪些东西，但是这并不代表它看见的东西，就是你所看见的。

因为它看到的其实是一张贴满了标签的二维平面，而不是你所认知的物理空间。
打个比方，你看到一瓶放在桌面上的水，你脑子里会知道它有重量，它要放在桌子上，它是否会滚动，它掉下来会是什么个运动状态——你之所以会这么想，并不是因为你识别出了这瓶水和桌子，而是因为你是知道这个物理世界是怎么运行的。
但是 AI 不会这样，它只会知道水瓶和桌子，以及水瓶应该是在桌子的上面而不是下面。

因为如此，去年“ AI 教母”李飞飞提出了空间智能这个概念，用“世界模型”让 AI 看懂物理世界，理解物体之间的空间关系、物理约束以及运动规律等等。
从目标来说，vivo 跟李飞飞所追求的是一样的，都是最终实现 AI 对于物理世界的感知——只不过 vivo 打算走一条更符合自身情况的路子，用影像来当 AI 在物理世界的感知器官。
为啥是影像呢？
咱们从数据采集方式来看，录音只有声音；传感器只有距离、亮度等信息，没有语义。只有影像能够把前面这两项给囊括进来，把三维的现实世界，给你变成 AI 能读懂的结构化信息。

而且过去这么多年手机厂商影像的飞速进步，带来了海量的技术和场景数据积淀，比如对于光线的计算、前后景分割、人像分割、拍摄视角识别、场景识别等等积累，对于 AI 感知物理世界都有所帮助——
因为之前有研究表明，拍摄角度不同、光线差异、或者是有人从镜头前方走过等情况，都会降低 AI 的识别准确度。
就像 vivo X300 Ultra 和 X300s 这回的影像 Agent，之所以能自动推荐拍摄参数，核心就是手机影像能精准识别拍摄对象、光线条件，再结合 AI 算法，帮我们省去手动调节的麻烦。

另外，我还刷到过有文章说，AI 之所以无法很好地理解物理世界，有一个很大的原因是真实数据不足所造成的训练缺口。
因为过去传统的方式是，用实验室捕捉到的数据来训练 AI，这些地方的灯光固定、实验者会穿特定着装，跟现实场景相去甚远。
而商业级和通用的影像训练资料很多是非标数据，也就是没有打上力学标签，会导致 AI 无法准确识别某个动作的力度。
从这点来说，手机影像的优势在于它更贴近普通人的日常生活，数据基本就是我们每天随手拍的场景。
比如清晨的阳光、路边的小吃、家里的宠物等等，你拍越多真实的日常场景喂给 AI ，AI 对于我们普通人的生活就理解得越精细，甚至可以在手机上复制一个你的数字生命。
而且由于 AI 是跑在端侧的，你也不用担心云端的隐私泄露问题。

而对于未来影像和 AI 的结合，胡柏山认为影像应该是具备多模态感知能力的智能感官，他原话是这么说的：
“它不仅要识别“这是一只猫”，更要理解：猫在沙发上跳跃的可能轨迹、下一秒可能打翻水杯的关联、以及它此刻慵懒的情绪。”
在 vivo 看来，AI 的感知能力应该是主动的，可以帮你观察环境亮度、空间的纵深、甚至人际的距离，如果未来的 AI 想要能和人进行很好的互动，那么前面这些就是必须要具备的。
举个很实在的例子：未来手机看到你在逛超市，就能推送优惠信息；看到你在开会，就能自动开启会议 Agent，帮你做会议纪要。这些场景，没有影像主动的实时感知，AI 根本无从下手。

聊到这里，咱们总算是把影像和 AI 感知能力之间的联系给唠明白了，而在听完博鳌的分享后，我也是回过味来了——
你们还记得不，2023 年胡柏山就透露过 vivo 会切入机器人赛道，并且还说：“最适合做机器人的就是手机行业，甚至没有之一。”
现在来看，这些行业巨头看到的东西，跟我们普通人还是不太一样，当年胡柏山敢说这话，是因为影像积累的视觉感知能力，正是机器人“看懂世界”的关键，
而 vivo 要做的，就是把这种能力，延伸到手机之外的生态产品上。

他们的战略很清晰，就是以影像 + AI 为核心，构建感知系统，一边重塑手机，让手机变成更智能的“随身助理；一边布局 MR 头显、家庭机器人等生态设备，让感知能力覆盖更多场景。
胡柏山在群访现场剧透，机器人 LAB 现在还在梳理路径，会聚焦年轻人的生活场景，比如照顾宠物、收纳衣物，先从简单的场景入手，逐步迭代，不追求一步到位。

而且他们很清醒地认为，大模型未来会越来越同质化，真正的差异化在于场景数据——因为不同品牌聚焦的场景不同，积累的数据就不同，而影像正是获取这些差异化数据的核心。

就像特斯拉的 FSD 虽然开源部分技术了，但是最核心的代码和数据并没有公开，所以其他家也做不到跟特斯拉一样的体验，而 vivo 更聚焦场景数据，这也会成为自己的核心竞争力。
在这波AI的大浪潮里，每一家头部厂商都在为未来布局，但 vivo 没有盲目地跟风追 AI 热点，而是选择了在自己原有的影像长板基础上，去为 AI 打造感知能力，让 AI 在未来可以真正走进我们现实的生活中。
我们总说人类是“视觉动物”，其实我们创造的智能体，未来也会是“视觉动物”——vivo 接下来想做的，就是好好打磨 AI 的这双“眼睛”，用影像来给 AI 落地铺路架桥。
虽然目前我们还没看到最终的成果，但蓝厂是打算先从手机- MR头显-机器人的发展路径入手，用“沿途下蛋”的方式，不断产出阶段性的成果，这也让我们看到了未来更多的可能性。
撰文：粿条
编辑：米罗
美编：素描
图片、资料来源：
vivo
为什么AI能看到世界，却不懂世界？——一凡
它知道你在搬重物，但不知道你會受傷：想讓 AI 讀懂物理世界究竟多困難？——Min
部分图片为AI生成

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

专栏科普|实用技术科普微信聊天到底为什么会出现“对方正在输入”？

四川发布地质矿产人工智能大模型产品集群

iPhone设计师成“香饽饽”！苹果砸重金筑墙，回应OpenAI疯狂挖角

前阿里千问负责人林俊旸离职后首发长文，探讨AI未来的发展方向：从训练模型转向训练智能体

京东与蔚蓝科技达成战略合作加速具身智能走进家庭与商用场景

AI顶会封杀华为等企业，中国计算机学会倡议拒绝为其提供学术服务

全站最新

专栏科普|实用技术科普微信聊天到底为什么会出现“对方正在输入”？

四川发布地质矿产人工智能大模型产品集群

iPhone设计师成“香饽饽”！苹果砸重金筑墙，回应OpenAI疯狂挖角

前阿里千问负责人林俊旸离职后首发长文，探讨AI未来的发展方向：从训练模型转向训练智能体

热门推荐

专栏科普|实用技术科普微信聊天到底为什么会出现“对方正在输入”？

四川发布地质矿产人工智能大模型产品集群

iPhone设计师成“香饽饽”！苹果砸重金筑墙，回应OpenAI疯狂挖角

前阿里千问负责人林俊旸离职后首发长文，探讨AI未来的发展方向：从训练模型转向训练智能体

京东与蔚蓝科技达成战略合作加速具身智能走进家庭与商用场景

AI顶会封杀华为等企业，中国计算机学会倡议拒绝为其提供学术服务

范式智能IPO辅导备案，获红杉资本中国、腾讯投资，华泰联合证券保荐

华图山鼎携手飞书打造“原生AI组织” AI管理成增长新引擎

BOE（京东方）携手美高梅亮相国际顶级艺术盛会以创新显示演绎科技与文化融合的新浪潮

耗资15.8亿！腾讯音乐新总部施工进入关键阶段！

华图山鼎携手飞书打造“原生AI组织”，AI管理成增长新引擎

阿里云：2026年DataClaw：如何让 Agent安全访问数据报告

ChatGPT只是序章：AI要走的5个阶段，哪一步会颠覆你的工作与生活？

当AI越来越会“表达”，我们还在意什么是真的 ——小红书开放日举行

腾讯云与艾欧智能达成战略合作共推具身智能产业规模化落地