![]()
对话:王兆洋,黄小艺
整理:黄小艺
Memories.ai试图为未来的AI设备装上“视觉记忆”。
这家由前meta Reality Labs研究员Shawn Shen和Ben Zhou创立的公司,11月6日发布了其第二代模型——大型视觉记忆模型(Large Visual Memory Model)2.0,并同步宣布与高通达成战略合作。
LVMM 2.0 通过将原始视频转换为设备上的结构化内存,对视频进行编码、压缩并构建支持亚秒级搜索的索引,让用户可以用自然语言提出问题,跳转到确切的时刻。
与高通的合作也意味着,Memories.ai可以为搭载高通芯片的AI硬件,例如AI眼镜等可穿戴设备,提供一个本地化的视觉记忆解决方案,让你的设备能记住你看到过的东西,并随时帮你找出来。
在合作官宣后,我们也和Shawn聊了聊,他们不参与最拥挤、最烧钱的“通用智能”战场,不负责让AI“思考”或“理解”记忆的含义,核心只做两件事:
将用户看到的视觉信息进行高效“编码”,并支持快速精准的“搜索”。
“从第一性原理出发,人类构建记忆也是两块:第一,编码器,能够实时地把我们感知的世界编码成电信号,储存在脑子里;第二,搜索引擎,用来查找回忆,我们做的也是这两块。至于搜出来后,怎么整理、筛选、组成上下文喂给大语言模型,就交给其他层来做。”Shawn说道。
“我们不做推理,也不做很多‘记忆’公司在做的上下文工程。我们认为那些工作解决的问题太具体细分了,而我们想做一家AI Infra公司。”
这是一个务实的想法,不与Google、OpenAI这样的庞然大物硬碰硬,也不和Agent公司争夺垂直领域,而是选择一个最底层的切口,成为生态链上一个不可或缺的“关键底层”,但它同样具有野心——未来无论谁家的Agent和硬件做得最好,都会需要一个稳定可靠的“视频记忆模块”,而Memories.ai希望成为这个模块的提供商。
Shawn是Memories.ai的联合创始人,他此前在剑桥大学期间主要研究的就是多模态模型——训练模型去关联视觉、语言和上下文。博士毕业后他去了 meta Reality Labs继续做多模态AI研究,去年和同在meta Reality Labs 的Ben一起创立了 Memories.ai。
以下为我们和Shawn的对话实录:
编码模型+搜索引擎,一家模型+Infra公司
硅星人:为什么选择“视频记忆”这个方向?你们似乎是这个领域里非常少有的玩家。
Shawn:我们想做的是真正模拟人的记忆。我一直认为,人的记忆本质上是视觉记忆,回忆的载体是鲜活的视觉画面,而不是文本记忆。所以我们从第一性原理出发,决定要做视觉记忆。
硅星人:你们的技术路线是怎样的,怎样建构视觉记忆?
Shawn:我们本质上只做两件事。从第一性原理出发,人类构建记忆也是两块:第一,我们有一个编码器(Encoder),能够实时地把我们感知的世界(通过视频方式)编码成电信号,储存在脑子里;第二,我们有一个搜索引擎来查找回忆。我们做的也是这两块:一个编码模型,把原始的视频转成结构化数据;一个搜索引擎,根据用户的提问,在结构化的数据库里找到最相关的数据。
我们觉得,未来的编码模型一定会做得越来越小,甚至一定会做进端侧。因为视频需要实时、持续地处理,不像大语言模型,用户一天只问几十个问题。未来的机器人需要时刻看着世界,这就必须在端侧处理。如果不在端侧,持续上传到云端的功耗会非常大,而且还有隐私问题。
硅星人:我体验了你们的产品,除了核心的视频Chatbot,还有基于海量视频的视频营销洞察、AI剪辑等等,这些都是你们未来的方向,还是仅仅作为案例范例?
Shawn:那些更偏应用层的功能,比如视频剪辑(Video Editor),更多是作为示范案例,之后我们会开源。我们一度想尝试,但很快发现想做深非常难,而且没有必要。因为现在也没有一家 Video Editor Agent 或 Video Marketing Agent 公司真正跑出来。
我们业务有三块:to C(或者说 to Prosumer)、to Developer 和 to 大B(大客户)。to Prosumer 和 to Developer 这两块,我们的目的不是赚钱,更多是扩大品牌影响力。
对于 Prosumer,我们的定位是一个一体化视觉平台,用户可以上传各种视频来学习和理解。我们后面也会推出连接器(Connector),可以连接到你自己的视频源,比如 Google Drive 或本地硬盘。
对于开发者,我们会开放 API。现在已经有很多视频剪辑Agent、视频营销Agent公司在基于我们的API构建他们自己的产品。我们自己做的这几个 Agent,其实是作为“参考设计”。
对于B端业务,Memories.ai已经吸引了很多企业合作需求,我们会筛选合适的项目进行深度合作。比如安保和监控摄像头中,对房屋周围情况的记忆,对独自在家的宠物行为的记忆,举个例子,你可以问AI,家里的花瓶是怎么碎了,然后AI查询出,是你的小狗在几点几分打碎的。
![]()
所以,我们只专注做两件事:编码(Encoding)和为视频优化的搜索(Search)。我们不做推理(Reasoning),也不做很多所谓“记忆”公司在做的上下文工程。我们认为那些工作解决的问题太具体(Problem Specific)了,而我们想做的是一家Infra公司。
硅星人:如果每一个垂直领域的记忆都那么不同,记忆公司该怎么去处理,都要做的话,是一个很大的挑战。
Shawn:是的。因为记忆,尤其是基于文本的记忆,太场景化了。就算是同样做客服机器人,你不同需求场景对记忆的处理方式就是不一样的,上下文也不同,这很难做成一个基础设施级的产品。
而什么东西能成长得最快?在企业端,就是找到一个痛点,然后找到更多有类似痛点的企业,做成一个 SaaS。在消费端,就是输入输出(Input-Output)要简单,一个 API 调用就结束了,而不是在里面还要做各种各样的工作,那样很难Scale。现在大部分记忆框架,对我来说就是上下文工程。
而我们做的编码,是完全独立于具体问题的,就是怎么把视频变成结构化数据;搜索,就是当我在海量的结构化视频数据里,有一个当下的任务或查询时,怎么搜到最相关的内容。
至于这些内容搜出来之后,你怎么整理、怎么筛选、怎么组成上下文喂给大语言模型,这些就是 RAG做的事了。当然对于 B 端大客户,我们会提供端到端的方案。
硅星人:编码模型是你们的核心。这个过程中,对视频的结构化处理很复杂,比如对人物、动作、情节、事件的多层拆解。你们的编码模型和此前的相比,区别在哪里?
Shawn:主流视觉模型,比如ViT,把视频向量和文字向量对齐,用对比学习进行对齐,通常是基于静态图片(Image)进行训练的,这带来了几个问题:第一,它不是真正的多模态,只能理解视觉,无法融合音频等信息。第二,它无法理解时间概念,因为输入的是静态图片。第三,由于它是跟文字描述做对齐训练,如果文字里没有涵盖某些概念,模型就永远学不到。
而我们做的是一个世界模型编码器。它有三大不同:真正的多模态: 能将视觉、音频等多种信息融合到同一个嵌入空间里;理解时间与动作: 基于视频流进行训练,因此能真正理解动作(Action);自监督学习: 我们尤其在人物、动作和物体的理解上做了大量优化。
硅星人:所以本质上你们是一家模型公司。
Shawn:对,我们本质上是一家研究驱动的模型公司,一个研究实验室(Research Lab)。
视频记忆模型的未来在端侧
硅星人:这一代模型,借着跟高通合作的契机,做成了一个能在端侧运行的模型,它和第一代模型的关系是什么?
Shawn:它们都是编码和检索模型。第二代则做得更小,更多的是尺寸上的区别。
硅星人:你认为这类模型,它存在的价值主要是在端侧吗?
Shawn:我觉得对于编码模型来说,在端侧非常重要。就像人一样,视觉信息是持续不断进来的。举个例子,你的手机相册,大部分人其实不会上传到云端做备份。
![]()
硅星人:那现在它识别精准度的问题,接下来要如何进一步优化?
Shawn:首先,肯定是要在更大的数据上做训练,模型会变得越来越准。第二,还是要把模型做得更小。我觉得“准”是有一个天花板的,因为我们不是做推理模型。推理模型没有天花板,可以做得无限聪明。而我们的编码模型,它的目标就是对视频信息做一次无损的重构(lossless reconstruction),最多就是能做到完全转回去,这就是天花板,可能未来 5 到 10 年达到。
现在更重要的,就是怎么把模型不断变小,先在 NPU,后面在 CPU,再后面在一个更便宜的处理器上就能实时跑。
硅星人:跟高通的合作,是第一次把模型放进 NPU 或芯片里吗?
Shawn:对,之前都是在云端依赖 GPU,通过 API 调用。现在可以直接做端侧部署了。
硅星人:接下来和高通的合作,会有一个阶段性的部署计划吗?
Shawn:有。我们现在就在跟他们做联合销售(Co- sell),一起去服务很多终端厂商客户,我们也能提供很多初创公司的合作机会。我们做各种各样的 POC(概念验证),包括未来的一些 AI 眼镜公司。主要的 use case 就是手机上的 AI 相册、安防领域的智能监控,以及 AI 助手的端侧视觉能力。
![]()
硅星人:这几个案例的市场规模,就足够支撑你们在长线的事情上继续投入了。
Shawn:是的。而且我们现在也在做First Party(第一方)的APP,高通也会在这方面支持我们。
硅星人:这个事挺重要的。一方面,直接在芯片上跑,速度会天然快很多。另一方面,回顾商业史,移动互联网时代的很多大公司,比如字节跳动,最初也是在智能手机转换期通过预装来获得杠杆。所以这次合作的节点,从这两个角度看都很重要。是高通主动找到你们的吗?
Shawn:是高通找到我们的。你看现在英伟达涨得这么快,那么下一个破局点在哪里,很自然就能想到了可穿戴设备和机器人。这些设备什么地方需要巨大的算力?就是对视觉信息的实时处理。
硅星人:为什么现在大厂很少做类似的事?
Shawn:我觉得更多的是因为大家现在都在竞争“智能”。“智能”和“编码”是两条完全不同的技术路径。“智能”要做的是要有足够的创造力,而且没有上限。我们做的“编码”,是把视频转成结构化数据,从技术上说,我们需要的创造力是越少越好。这是完全不一样的训练方法和技术路径,最后只会越走越远,而不会趋同。
硅星人:这很有意思。我们看“记忆”这个领域,包括像 DeepSeek OCR 、 Sora出来,外界总想把它放到多模态的框架里讨论,包括你们也能被归类到“世界模型”的讨论中。但我自己感觉,其实不应该把视觉只是当成一种“模态”,包括你们的思路其实也是把它当作一个更基础的东西。只是因为这波大语言模型太强了,所有东西都在向 token 对齐,但人的记忆可能是基于视觉的,不是基于 token 的。
Shawn:是的。你看,人思考用文字,所以我们写公式是用 token 的。但是人回忆,永远是回忆视觉。因为视觉回忆起来够快、够准。
我现在让你一字不落地背诵一篇长文可能很难,但让你回忆几十年前童年的某个场景,你却可以很快地回溯出来。因为视觉信息对于人脑来说,是一个非常容易被储存和检索的模态。有了这些视觉信息之后,你才会去做相关的推理。
硅星人:我们知道,像LLM(大语言模型)处理的Token,数据存储和检索相对高效,甚至可以用“大力出奇迹”的暴力方式来处理。但视觉信息要大得多,将非结构化的视觉信息转换成模型能理解的“结构化数据”的过程,是否也意味着它的处理方式与现有LLM完全不同?
举一个更具体的例子:当我回忆童年时,我的人脑并不会像计算机一样,从2000年到2005年把所有“视频帧”都线性地扫描一遍,你们的模型要如何才能实现这种类似人脑的、非线性的视觉记忆检索?
Shawn:对,其实在研究领域大家都很早期。比如说,DeepSeek OCR,他们也开始探索如果拿视觉作为一个Native的Reasoning框架,之后能发生什么,其实我们也是以这样的方式去思考的。大语言模型是无监督训练,去Predict the next token,我们现在做世界模型的Encoder。世界模型不是predict next token,是predict the next frame。
硅星人:你的最小单位是 frame,里面包含了时间等多维信息。
Shawn:对。
创业要找到北极星指标,学会Say No
硅星人:所以你们在一个研究上都未成熟的领域,需要去定义问题,同时又要商业化、要融资,技术本身又很新。
Shawn:对,在硅谷大家也更认可这一点,就是我们去做一个长期(5到10年)的事情。我们现在主要还是把自己定位成一个 Research Lab,在长期道路上做正确的事。
硅星人:但做这个事情需要资源,你们的资源怎么去竞争,策略是什么?
Shawn:我们需要三类资源,数据资源、算力资源、人才资源。因为我们做的模型,天生就不需要特别多的算力资源,模型本来就小,编码模型预训练一次花几百万美元。所以,对我们更重要的是数据资源和人才资源,我们主要是在这两方面有一些核心竞争力。
硅星人:可以展开讲讲吗?比如数据。
Shawn:第一,我们平台上有几万用户,上传了超过百万的个人视频。第二,我们会通过硬件,专门去做第一人称视角的视频数据采集,这类数据本身就非常稀缺,但我们也积累下了大量的数据。第三就是人才资源,我们在硅谷有一定的存在感,是一家人才浓度很高的公司。大家其实都是因为对我们做的事情感兴趣而来的。
硅星人:以前在学术界,现在作为 CEO,这个转变感觉怎么样?
Shawn:挺好的。挑战很大,每个阶段都不同,很多东西体验了才知道。比如大家都说要保持健康,但只有你真生病了才知道重要。创业也是,大家总说要招最牛的人,真正做了才知道这确实至关重要,不能只招执行力强的人。第二点是要专注,学会说不。创业公司资源永远有限,怎么去专注一件事,做好优先级排序和时序安排。
听别人讲和自己上手体验完全不一样,我现在是各种环节都得自己上,从产品到市场,到跟客户交流,企业销售会议,甚至模型、产品发布的视频文案都是我做的。
硅星人:我们观察到你的产品思路在不断变化。比如一开始对 Prosumer 端的想象可能野心很大,但试了一下马上就知道了市场的真实反馈。
Shawn:今年三四月份,我们还觉得视频营销(Video Marketing)是利用多模态的一个非常好的市场。但试了之后发现不是。
我们的技术是理解海量视频,AI 助手(AI 的记忆)才是我们未来真正想做的方向。像视频剪辑、视频营销这些,即使做了,你还得去找更细的切入点,比如是给品牌用还是给个人用,是做有 UI 的还是纯自然语言交互的。切得越小,跟我们主体方向就越远。所以我们决定这些就作为Demo或Side Project,我们还是会更专注于更长期的事。
我们的北极星(North Star)就是:做未来所有智能体(机器人、AI 助手等)的记忆系统。只要硬件上带摄像头、内部有 AI,我们就为它提供看见、理解并记住世界的能力。
硅星人:你现在也依然在高校里担任教授,这种给公司和产品的定位能力和学术里去“定义问题”有点像?
Shawn:对,就是一句话概括你要做什么。定位定义好了,你才知道怎么打市场,目标客户群体是什么。比如我们的目标客户群体一直是创始人和构建者(Founders and Builders),我们也确实做到了,现在的AI 创业团队应该都听过我们。
硅星人:你那一句话的定位是什么?变化过吗?
Shawn:没太变过。如果用一句话概括,就是“让 AI 看见和记住”(Making AI to see and remember)。另一个就是“Large Visual Memory Model”这个词,它本身就定义了:第一,你是做视觉记忆(Visual Memory)的;第二,你是模型(Model)公司;第三,你是做基础层(Foundational)工作的。
在一个万物皆可被记录的时代,如何“记住”本身,或许比如何“思考”更为根本。
![]()
![]()
点个“爱心”,再走 吧





京公网安备 11011402013531号