
![]()
“记忆会是AI时代的主角,多模态记忆平台将成为AI时代的基础设施范式。”
作者丨成仲轩
编辑丨董子博
初见离哲(本名占超群,质变科技创始人兼CEO)时,他习惯性地用双手比划,仿佛在将空气中无形的碎片聚拢、串联。“人的记忆是碎片的,”他说,“而无数碎片化的知识,就像无数溪流汇成湖。”这形象地解释了质变科技核心产品“记忆湖(MemoryLake)”的由来,也指向了当前企业AI升级中最关键的挑战与机遇。
如今,企业AI正面临一个分水岭:一边是仅能处理对话的“智能玩具”;另一边,则有望成为能持续理解、学习并给出行动级决策的“业务伙伴”。二者的本质区别,并不完全取决于模型本身的大小,而在于AI是否拥有一个能够理解、串联并推理现实世界复杂信息的能力——即多模态记忆。
这并非简单的功能叠加,而是一次认知范式革命:它要求AI从单纯处理会话场景,转向理解企业生产场景中由文本、表格、音视频、工作流交织而成的连续“决策轨迹”。离哲与他的团队,正致力于通过MemoryLake,成为这场静默革命的关键构建者。
作为前阿里研究员,如今质变科技的CEO,离哲为何选择“记忆”这条未来可能竞争激烈的赛道?(AI 行业还有哪些发展新动向?背后又有哪些不为人知的行业故事?雷峰网 AI PM 十人谈正持续推进中,欢迎添加作者微信:GO-GO-ZEPPELI,交流信息,分享认知。)
以下是雷峰网和离哲的对话,作者进行了不改变原意的编辑整理:
01
记忆碎片,汇聚成湖(MemoryLake)
雷峰网:您为什么会想去做记忆这件事?
离哲:这与 AI 行业的发展趋势有关。我们可以把这一轮的 AI 发展分成三个阶段:
第一个阶段就是 2024年之前,大家更多的感受是 AI 能体会到价值,能连接到企业,所以大家会选择做向量数据库,做知识库。它要解决进入企业、跨过企业生产价值的第一道门槛。因为很多东西是没有太多生产效率提升的,比如问答,所以进入企业的第一件事情,就是通过向量数据库在大模型和数据之间连接起第一道桥梁。虽然这道桥梁离生产还非常远,但它确实解决了第一阶段的问题,让 AI 和数据能连起来。
期间,我们发现这里面的发展空间很大。一方面,数据不只是一个向量表征;另一方面,人的知识是分隐性和显性的。如同一篇新闻稿,如果你是媒体人,会比普通人更容易判断内容的新闻性,这就是你的隐性知识。但 AI 不知道,这就导致它很难落地。
第二个阶段是从 2024 年开始的,起因有两个:第一,模型成本下降以及性能提升;第二,出现了一些示范应用,比如一些通用智能体应用,所以 2024 年到 2025 年更多解决的是示范应用的问题,就是除了聊天工具以外的第一层示范应用。示范应用最大的问题不是不好用,而是没有完全介入企业工作流,无法评估、无法兜底、无法追责。
第三个阶段是从2025 年下半年开始的,如果说前两年还是生产效率的探索,现在就要往企业生产效率平台演进了,对可信可靠、复杂性都提出了很高要求, 企业开始用“生产系统”的标准来要求 AI,而不是“演示效果”的标准。过去大家会说自己提升了多少,但其实都是“时间的节省”。时间压缩能提升试错速度,但在如芯片制造、风控这类高约束场景里,瓶颈往往不在时间,而在物理和风险边界。这背后也涉及到今年进入企业要解决的几个问题,首先是真正围绕价值展开,再往后才是效率、准确性、复杂性等问题。
这些东西要怎么提升?尤其是很多隐性知识如何显现?比如风投,同样是被投企业的三张表,为什么普通人看不出来,但 VC 就能看出很多“门道”?因为这些“门道”是他们已经内化了的逻辑。换句话说,内化了的隐性知识是最有含金量的。这不同于我们现在常说的“数字人”,它只是把人的表象数字化,但没有做到内化,没有把人的隐性的东西数字化。如何让这些隐性的东西“显现”出来?就需要记忆。
雷峰网:在现阶段,企业要实现从“生产效率探索”到“生产效率平台”的跨越,您认为最需要突破的是什么?
离哲:关键在于如何让这些隐性知识“显现”出来?就需要多模态记忆。
多模态记忆是企业刚需,决策轨迹天生就是多模态的。企业中的一次采购决策,线索可能来自一份PDF报告(文本)、一次会议录音(音频)中的关键论点、一组历史价格曲线(图表)和审批流中的批注(结构化数据)。传统“会话级别”的记忆,仅是这条连续、混杂轨迹的一个孤立切片,丢失了绝大部分上下文与记忆链。多模态记忆平台的目标,是完整复现这条“决策轨迹”,让AI能在全量记忆基础上进行推理。
构建多模态记忆有很高的技术门槛,它要求一整套记忆化工程技术栈和独立的多模态数据大模型来处理,包括:
多模态表征与对齐:将文本、图像、表格等不同模态的信息,映射到统一的语义空间,并建立跨模态的关联(例如,将报告中的文字“销量大涨”与PPT里的折线图峰值对齐)。
深度理解与结构化提取:通过专用模型(如MemoryLake-D1),从复杂文档、图表中提取逻辑关系和结构化知识,而非简单转写文字。
记忆的状态管理:处理记忆的逻辑冲突、更新、增强、反思与合成等,这是一个动态的、持续的过程。
这也解释了为什么通用大模型厂商或传统数据平台难以胜任:前者缺乏深度结构化理解与系统级记忆管理能力;后者则缺乏顶层的多模态认知与推理能力。从这个层面来看,多模态记忆不是功能升级,而是AI范式革命。
雷峰网:这是否意味着,多模态记忆平台的成功,就是建立一套不同于传统文本处理的数据理解、表征、存储、管理与计算体系?
离哲:是的,这正是核心。我们训练MemoryLake-D1,不是为了做一个更好的OCR或语音转文本工具,那是功能优化。我们的目标是建立一套统一的“多模态记忆框架”,让表格的逻辑、图片的语义、语音的情绪都能被结构化地理解和关联,成为可推理的记忆单元。这确实需要从底层模型到以记忆为中心的存储计算架构的全面革新。
雷峰网:为什么会取 MemoryLake(记忆湖)这个名字?
离哲:本质上是因为人的记忆也是碎片的、多源的、多类型的,比如说我今天看到你,可能有多个角度:第一是行业高知名度;第二是你来了我们公司;第三你是个媒体;第四我们有个交流;第五我们的面容、沟通过程中的音频等。总之它是一个碎片化的知识,就像是无数溪流汇成湖,它是一个动态、流动的集合,我们需要什么就从里面动态去基于意图“捞”,或者说你需要的时候,就根据意图、Context Window Size 实时帮你构建出来。
特别说明下,虽然现在大家都在提短期、中期、长期记忆,需要做静态的压缩、遗忘等,主要原因是人脑的存储容量、算力很有限;而真实世界不应该是静态进行预先压缩,而是采用全新的分布式多模态存储与计算能力,尽可能全部存储与组织,根据真实问题按需动态实时构建专属的精炼且完整的记忆。
具体到 MemoryLake-D1 ,因为它是数据Data的首字母,又是第一代,所以叫“D1”。
雷峰网:MemoryLake 的产品形态是怎样的?您如何看待这种产品形态?
离哲:MemoryLake 有多种形态,最常见的形态之一就是做成 API和兼容已有规范(如兼容mem0、MCP、OpenMemory)。这样用户就可以直接去使用熟悉的大模型和 Agent,就很容易连接上我们,默认就有多模态记忆并且连接到海量数据。
在海外,MemoryLake 的绝大部分场景是被集成,比如 ChatGPT 和 Claude。我们的记忆刚好可以把任意的数据转成任意一个大模型或Agent 支持的记忆形态,所以 MemoryLake 是插件形态还是别的什么形态都不重要。
MemoryLake 将作为一个长期存在的记忆层,而不会被某一个模型或工具锁死。
雷峰网:具体到 MemoryLake-D1,它主要解决了哪些方面的问题?调用成本如何?
离哲:MemoryLake-D1 主要解决的是数据理解的问题,就是我怎么更好地去理解 Excel、PDF 等多模态内容,因为个性化的业务表格是非常复杂的(Excel 很大程度上是最好最复杂的软件)。为了解决这个问题,我们投入很大资源去标注与合成数据,并结合用户的反馈,训练自己的多模态数据理解模型 MemoryLake-D1 来解决这个问题。
至于 MemoryLake-D1 的调用成本,相比自己调用OCR 模型以及多模态视觉模型要低不少。不过这里面也涉及到权衡,你是要速度、灵活性、准确度?不同选择还不太一样。比如“极快”,我们可以采用预静态编译Skills 的模式生成 coding,持续复用实现高性能、低灵活性、低成本解析。
雷峰网:MemoryLake 的后续更新方向是什么?难点又在哪里?
离哲:MemoryLake-D1 目前主要还是文字、表格、图片、文档、数据库、音频,后续主要增强视频和音频。
相比图片,音视频会更困难一些。因为音频、视频有语速、有情绪,处理起来比较复杂。比如某个游戏玩家很愤怒,但当你把他的“愤怒”语音转文本后,很容易丢掉语速和情绪,进而改变这个玩家的最初语意。
这其实也是 AI 发展到当下面临的一个问题:会在转换的过程丢掉很多重要的信息。因为很多信息是隐性的,但模型与数据理解能力又是有限的。
02
内化隐性知识,构建决策智能
雷峰网:您之前反复提到“隐性知识”,如何将其内化到相关企业当中?
离哲:我觉得但凡要落地AI的企业,首先要做的是把企业员工过往的重要工作过程形成决策轨迹,把多模态的语音、视频、文本、文档、审批等多模态的决策轨迹化,后面才有效率的提升和突破点。
雷峰网:具体到质变科技,又是怎么做的?
离哲:首先需要明确一点,决策轨迹的完善不是一蹴而就的,它会越做越强,越来越完善。此外,从我们过往的实践来看,我们从第一天开始就认为:未来的终极智能一定是行动智能和决策智能,有决策智能,才有行动智能,所以我们第一天就在做决策智能体,从 2024 年开始研发,当时的核心思想就是“Every chat is software”;架构就是基于通用大模型生成思维树、然后自演进模式迭代生成局部代码来做这件事情,只有这样才能实现决策的可解释、可干预、可信可靠、可执行。
比如我们做了高考的相关智能体。因为高考的所有过程和决策是公开的,所以高考也可以做预测。比如有人提问,说自己的性格比较孤僻,适合读什么专业?然后把分数线、城市、性别输入,智能体给他推荐相关的专业。又比如说有人想根据地理位置、家庭经济条件等因素进行选择,哪些学校更适合留学?哪些更适合保研?智能体都能给出相应的推荐。
虽然这背后涉及到非常复杂的决策体系,但从本质上来说,如果决策本身跟快速验证强相关,就相对好做。至于很多隐性的信息,其实是被“藏”起来了。就比如像张雪峰这样经验丰富的辅导老师,自然而然隐去自己过往积累的丰富的决策过程。
雷峰网:这是否意味着决策智能/AI个性化决策市场已经进入红海?以及当下面临着哪些发展难题?
离哲:这倒不会,AI个性化决策市场还是很大的,你要说决策智能难不难做?难做。只是很多难做的原因是因为没法验证或激励,或者说验证周期漫长。
怎么样把这些东西“显现”出来,就需要用到记忆以及大模型的深度思考能力,二者深度融合。在底层构建庞大的静态记忆如实体提取、知识Skill 化,在用的时候动态分层构建起来,这其实也是我们自己做的第一类产品。
至于第二类产品,就是我们后来服务的一些办公场景和游戏场景。
雷峰网:游戏场景?这个要怎么理解?
离哲:我一直觉得,游戏本质上是真实社会的投射,甚至是一个提前演化的更丰富的社会实验场。
过去的游戏是静态的——你一旦下线,世界就停在那里等你回来。但现在不一样了,很多 AI 游戏里,你下线之后,这个世界并不会暂停,而是会以接近真实世界、甚至更快很多倍的速度继续运转。
游戏里的角色会继续生活、做选择、产生变化。某种意义上,它已经不只是“给人玩的系统”,而是一个持续运行的虚拟社会,在用更高的时间密度,去映射和放大真实世界的运行逻辑。
此外,除了天然离用户近、离价值评估近,游戏还有一个好处——容忍度高。在游戏里,记忆或 AI 理解局部错误还不会造成严重影响,但是AI 在企业场景的容忍度极低。
雷峰网:可以就AI 在企业侧的低容忍度展开讲讲吗?
离哲:在容忍度这件事情上,在很多现实场景中远远超出大家想象的难,因为很多错误一旦发生,后果是不可逆的。比如电商、客服,但凡涉及退货、赔款等规模性金融损失都很复杂。又比如保险,针对不同的人、不同的症状,保险费率也都不一样。
雷峰网:企业对 AI 的低容忍度,对 AI 发展的最大影响是什么?
离哲:我觉得“低容忍度”对 AI 发展的最大影响,不是简单的“不敢用”,而是企业没法接受一个行为不可解释、结果不可追溯、问题反复出现无法优化的系统。
这几年 AI 进企业之所以一直“雷声大、雨点小”,并不是模型不够聪明,而是很多系统每一次判断都像第一次做决定——它不记得自己之前为什么这么判断,也没法把决策依据完整地还原出来。
一旦出问题,企业最害怕的除了效率损失,还有三件事:为什么会错?错在哪里?以后还能不能避免?如果这些问题回答不了,哪怕系统再聪明,企业也不敢把它放进真正的生产和决策链条里。
从这个角度看,企业对 AI 的低容忍度,本质上是在逼 AI 从“能回答”,走向一个有记忆、有上下文、能解释自己行为、能解决问题的系统。这也是为什么我认为,记忆不是锦上添花,而是 AI 能不能真正进企业的前提条件。
雷峰网:既然如此,质变科技当前的用户构成是怎样的?
离哲:主要分为三类:第一类偏办公;第二类偏金融;第三类偏AI游戏、具身智能等新行业。
在消费市场领域,MemoryLake 服务了全球超过 150 万 专业数据用户。在行业实践领域,MemoryLake服务了国内超大规模(生产系统中超10万亿级记录、亿级文档)的文档办公、头部的企业移动办公软件、大模型、大型国央企等企业,在与全球云大厂和AI典型厂商等竞争中,MemoryLake在成本、准确召回率和延迟等性能指标方面有着数倍于对手的优势,如在某严苛的办公场景端到端评测中达到99.8 % 准确率。
03
泛化或将打败垂类
雷峰网:综合国内外市场、平台,您目前会关注示范应用的哪些方面?
离哲:分两类,通用和垂类。通用应用更多还是在做聊天层次,如果按业务深度分,ChatGPT 和 Claude 的业务深度可能在第一层,对很多企业业务以及数据理解还不够,执行还不够可靠,智能体公司可能在第二层,大量垂类平台可能在第三层,以及更深度定制+长周期交付的如Palantir可能在第四层。
虽然这些平台都在做某一类或者某一个深度的示范应用,但背后也存在逐渐吞噬的过程:随着通用大模型的不断增强,越往后,可能会吃掉越多的垂类深度。等到一定时间后,今天所谓的 FDE+平台、刚刚兴起的 BPO等商业模式也就不一定存在。
雷峰网:可以就通用/泛化与垂类的关系展开说说吗?
离哲:我觉得泛化大概率会打败垂类。
今天很多企业(尤其是很多垂类创业公司)做的所谓垂类,缺少壁垒(有数据或数据模型的除外)。只是今天有很多企业在应用AI的不同阶段,从适配、接入改造再到价值升级的不同阶段中,需要一些角色如当前所谓的垂类来辅助完成阶段性任务。所以大家在这段时间会感觉垂类有价值,会觉得垂类能提高自己的效率,因为大家的起点都比较低。等大家都发展起来后,垂类的价值就不特别明显了。
雷峰网:您得出“泛化会打败垂类”这一结论的依据是什么?
离哲:我们在服务很多海外客户的时候,能明显感觉到他们对 ChatGPT、 Claude 的依赖远超垂类。这主要是因为通用大模型的演进很快,通用大模型的生态也很强大,他们现在的工具都在往上适配。在适配的过程中,它的能力也会越来越强,你会发现 ChatGPT 、Claude 每次发布新版本后,一些浅层垂类就容易被淘汰。
比如Claude 前不久推出了Interactive Tools,这是件标志性大事,可能会颠覆未来软件的发展。因为它预示着未来任何软件都可以headless 化,不需要有界面,而且它在1/26 还定义和发布了一套规范—MCP Apps,围绕LLM的一体化UI以及跨应用交互规范,这才是真的革命SaaS最后一环。
LLM负责思考,Agent Skills负责注入领域知识,记忆湖负责链接以及组织多模态数据,MCP负责 通讯/调用/局部界面生成(MCPApps),新一代的应用范式实现软件业更迭。当App 融入 MCP Apps 生态之后,受到最大伤害的就是垂类。在这之前,小垂类可能说我比大公司做的好, Interactive Tools出来后,当前的垂类可能都会受到冲击。
雷峰网:您判断“泛化或将打败垂类”,而记忆具有“引力效应”。这是否可以理解为,多模态记忆平台将成为AI时代的基础设施范式?就像云时代的数据平台。
离哲:是的。记忆会是AI 时代的主角,记忆平台解决的不仅是“记得住”,更是“如何深度理解”、“如何深度组织”、“如何动态基于Query 构建”的范式问题。当通用大模型的能力通过像MCP/Agent Skills/OpenMemory这样的规范与多模态记忆平台深度融合,它就获得了持续进化的、可信的“经验”和“知识”。这改变了软件构建的范式。我们坚信,定义并实现这套“记忆驱动智能”新范式的公司,将有机会成为AI时代的基石企业。
雷峰网:质变科技在未来如果有像 Manus 这样的机会,会考虑卖吗?
离哲:我们不会卖,虽然现在有很多公司想并购我们,但我们认为记忆这件事情在未来有很大的发展空间,是AI 时代的核心技术设施之一。因为记忆是有引力效应的,越用越好用,价值越来越大;模型可以随需切换,但是记忆是企业需要持续构建的核心资产。加之我们有平台能力、记忆能力、最佳实践的优势,我们是有机会做出一个像Databricks、Snowflake 那样的公司。
此外,国家将人工智能定位为新时代国家战略性核心技术与新质生产力,强调 AI 不只是技术产业工具,而是推动现代化建设的“基础设施”和“关键力量”。从构建基础设施的视角来看,记忆平台也是核心基础设施之一。
雷峰网:在保持独立性的前提下,质变科技会朝哪些方向发力?
离哲:在核心技术方面:我们会持续构建多模态能力如支持图片、视频、音频以及更多的数据源,增强MemoryLake-D1多模态数据模型的准确度、分布式记忆计算能力,提升产品端到端的精准度、可解释性、可干预性、安全性;
在市场拓展方面,我们会着重开拓游戏、办公、具身智能、金融等极具发展前景的市场领域;
在技术研究方面,我们将深入对分布式记忆计算能力(记忆规模会持续加速增长)、端到端的记忆评估体系建设。
欢迎添加作者微信:GO-GO-ZEPPELI,了解AI行业的更多内部故事与发展新动向。





京公网安备 11011402013531号