![]()
AI正在从“能计算”走向“会决策”,而记忆是这场跃迁的关键。
企业AI落地遭遇的困境正在变得清晰。数据分散在表格、PDF、音视频等载体中,系统无法形成连贯认知。高管分析项目风险时,模型找不到历史问题与市场趋势的关联;金融机构做风险预警时,系统无法追溯决策依据;制造企业排查质量问题,人工作业需要数周,模型响应需要数小时。
问题的根源在于,传统以数据为中心的系统只是对零散数据的存储与调用。而企业真正需要的是具备记忆能力,能够理解业务逻辑、关联多源信息、支撑复杂决策的认知状态。
占超群在阿里巴巴工作了十年多,主导搭建了国内营收最高的云原生数据仓库体系。他带领的团队曾在 TPC-H 和 TPC-DS 两项全球数据库基准测试中同时登顶,这是中国公司的首次。他还担任过阿里妈妈达摩盘架构师和城市大脑多个项目的总架构师。处理几十万亿级别数据的经验,让他比大多数人更早看到数据驱动的局限。
离开阿里后,占超群作为质变科技创始人兼CEO,带领团队研发了多模态记忆平台MemoryLake致力于让AI不再是孤岛,拥有了“人类”的记忆。
近日,又推出多模态记忆平台MemoryLake龙虾版,定位是打造AI时代的“记忆护照”,让记忆在ChatGPT、Claude、OpenClaw等AI平台间无缝迁移。
在这次对话中,占超群首次系统阐释了生产级AI记忆基础设施的底层逻辑、MemoryLake的技术护城河,以及AI世界为何需要”记忆护照”。
以下为与占超群的对话全文,略有删减:
智客ZhiKer:从阿里云出来创业,最大的感受是什么?
占超群:真正创业后,最大的不同是可以用更快的行动,做更大规模的突破性创新,与用户的距离更近,能够直接感受到他们的需求和反馈,创新也更 Solid。
当然,创业的挑战也很明显。在阿里背后有近乎无限的人力和资源支持,现在每个决策都需要反复权衡,很多事情必须亲力亲为,从客户拜访、产品设计、架构、产品原型实现甚至 Vibe Coding等都要亲自参与,也会参与一些前期原型开发。
智客ZhiKer:简单聊聊您在阿里的主要工作,以及后来为什么决定出来创业吧?
占超群:在阿里的 11 年,我主要做了两件事:一是完成技术从工具到产品再到全球化商品的演进;二是在大规模应用场景中实现数据价值最大化。
至于为什么创业,主要基于两个判断。
第一是云计算还有很大机会。未来五年,随着网络带宽和硬件性能的突破,软件形态会发生根本性变革,就像手机催生移动互联网一样,整个软件架构也会重构。
第二是AI会彻底改变数据的使用方式。过去数据分析主要服务高管,未来 AI 可以直接服务 Agent,而且视频、音频都会被数据化,数据的规模、价值、用户规模将远超以往。
我一直想做颠覆性创新。2022 年,我认为云和AI的结合会催生一个全新的市场,这是一个前所未有的机会。
智客ZhiKer:MemoryLake是一个什么样的产品,核心技术架构是怎样的?相比于其他记忆方案,最关键的差异在哪里?
占超群:MemoryLake 是一个多模态记忆平台,由MemoryLake-D1多模态理解大模型、MemoryLake记忆引擎、Relyt多模态数据平台,这三层打通了记忆从提取、计算到存储的全流程。
技术护城河体现在五个方面:
第一,多模态记忆理解能力。 MemoryLake-D1是业内首个专注记忆理解的领域模型,能解析复杂的Excel布局、扫描版PDF、流程图、会议音视频等。在头部文档办公企业场景中,通用方案的准确率只有60-70%,我们实现了99.8%的召回率。
第二,认知记忆体系。 我们构建了六种记忆类型,背景记忆、对话记忆、事件记忆、事实记忆、反思记忆、技能记忆。这种分类让AI能像人脑一样,根据问题场景精准定位相关记忆,而不是在海量聊天记录中盲目搜索。
第三,多跳推理能力。 这是记忆“活”起来的关键。当用户问“我应该投资这个医疗AI项目吗”,系统不是简单检索关键词,而是进行四跳推理,检索项目信息、关联过往投资教训、匹配投资偏好、综合外部行业报告,最终输出的是基于记忆图谱的因果推理。
在全球极具挑战性的长程对话记忆基准测试LoCoMo上MemoryLake以94.03%的综合得分位列全球第一。
第四,生产级性能指标。 我们实现了最高91%的Token成本下降,让长期记忆第一次具备大规模落地的经济性;在关键任务中达到99.8%的准确召回率;支持PB级记忆容量,毫秒级检索延迟。
第五,开放数据集成。我们内置了4000万学术论文、300万SEC文件、50万临床试验、实时金融数据、200万化合物、1000万美国专利等海量开放数据集。
智客ZhiKer:为什么又推出了MemoryLake龙虾版?
占超群:MemoryLake龙虾版面向开源智能体OpenClaw(俗称“龙虾”)提供永久、可迁移、认知积累的多模态记忆。采用“记忆护照”方案,就像护照让你在不同国家无需重新证明身份一样,能让你的记忆在不同 AI 平台之间自由穿梭。
当你的工作平台从 Telegram 迁移到ClaudeCode 时,AI 依然记得你三个月前提到的项目细节,这种体验仿佛它真的认识你。
这是记忆基础设施最核心的价值之一,它并非绑定某个模型或智能体的功能,而是一个独立于模型和智能体的中立层。企业可以自由选择最适合的模型,而记忆资产始终归企业所有,并能够持续积累。
当前大家热衷于“养龙虾”,但这只是记忆的起点,而非终点。
真正的记忆生产力,应让AI从本科生水平起步,拥有自己的知识体系,能够判断信息来源的可靠性,面对矛盾信息会思考、会判断,能看懂图表、听懂录音视频,并将每一次交互都沉淀为可复用的能力,而不只是给出一句“用户喜欢深色模式”这样简单的回应。
智客ZhiKer:目前市场表现和商业化进展如何?
占超群:在海外 C 端,我们推出了决策智能体产品 Powerdrill,主要面向金融、教育、政府等领域的专业数据人士,用于日常数据分析和决策汇报。基础版收费标准为 19.9 美元/月,针对需要博士级别开放研究并且引经据典、有理有据、深度溯源的规格收费为 199 美元/月。我们预计未来 ToC 业务将迎来爆发式增长。
在企业领域,MemoryLake 已服务于超大规模的文档办公企业、头部的企业移动办公应用、大模型企业以及大型国央企等。
智客ZhiKer:企业客户最关心的安全性和可解释性,你们是如何保障的?
占超群:这是企业客户的核心关切,我们从三个层面来保障。
可追溯性:每条记忆节点采用 Content - Addressable Storage,通过 SHA - 256 生成唯一 commitID,支持分支、合并、回滚操作,仅存储增量变化。每条事实都携带完整的溯源元数据(来源 AI、会话 ID、时间戳、置信度),通过 append - only 日志保证防篡改。可以追溯任何一条事实的原始来源,并导出符合合规要求的完整证明链。
可解释性:这是我特别强调的一点,我们首创了每一步可预览和解释的机制。系统不会给出一个黑盒结果,而是向用户展示推理路径、使用的记忆、所做的假设以及置信度。引擎返回的是结构化、精炼且完整的记忆片段,而非冗长的原始全文。
可干预性:我们提供版本控制、权限管控与合规审计。企业可以设置不同角色的访问权限,能够回溯到任何历史版本,还可以进行人工干预和修正记忆。操作过程是可控的,并非完全自动化的黑盒。
这些机制使得 MemoryLake 能够作为可信赖的长期记忆中枢嵌入企业业务,满足严苛的安全与合规要求。我们服务的客户包括金融、制造、政府等对安全要求极高的行业,这套体系已经经过实践验证。
此外,我们在生产环境中已经成功管理 10 万亿 + 条记录和 1 亿 + 份文档,同时保持了毫秒级检索延迟,实现了规模化与安全性的同步保障。
智客ZhiKer:接下来的重点方向是什么?
占超群:在产品研发领域,我们将持续优化记忆产品的多模态能力,如支持图片、视频、音频以及更多的数据库;继续加大 MemoryLake 多模态数据模型的准确度以及数据转换能力;不断提升 Sandbox 安全能力以及分布式记忆计算能力。
在市场拓展层面,我们将大力加强市场推广工作,着重开拓游戏、办公、具身智能、金融等极具发展前景以及高价值的市场领域。
在技术研究方面,我们将始终密切关注行业前沿技术,如采用 AgentSkills 全面提升可干预性;增强分布式记忆计算能力以增加记忆的规模,以及提升端到端的记忆评估能力。与此同时,加大对隐性知识的研究与挖掘力度,探寻将隐性知识数字化的有效途径。
智客ZhiKer:您希望未来 3-5 年,质变科技能成为一家什么样的公司?
占超群:模型的护城河在于算力和数据,而记忆的护城河在于“信任”与“中立”。企业不会愿意把积累了数年、涉及核心业务的认知记忆,锁死在一个特定模型厂商的生态里。他们需要一个像Snowflake一样、能自由连接任何模型和AI的中立记忆层。
记忆是有引力效应的,越用越好用,价值越来越大;模型和智能体可能随需切换,但记忆基础设施是个人和组织需要持续构建的核心资产。 作为全球少有的兼具记忆能力、模型能力和数据平台能力于一体的全栈玩家,我们有机会做出一个像Databricks、Snowflake那样的AI时代基石企业。(作者|郭虹妘)





京公网安备 11011402013531号