21世纪经济报道记者邓浩
日前,DeepSeek在人工智能开源社区Hugging Face上发布了一个全新的多模态模型DeepSeek-OCR。
这一成果迅速在产业界引发热烈讨论。
在华为旗下的学术平台“黄大年茶思屋”上,有技术专家甚至指出,该模型的核心构件视觉encoder的高效解码,为光计算和量子计算在LLM(注:大语言模型)领域的引入提供了明确的技术路径。
10月29日,图灵量子相关负责人在接受21世纪经济报道记者采访时表示,DeepSeek-OCR技术能更有效地将光计算高并行性和低功耗优势发挥出来,相信很快便会有光计算芯片结合大模型的应用出现。
光学压缩破局
一直以来,上下文的长度是困扰大模型性能的重要瓶颈。比如,上下文窗口过小,会导致模型无法一次性阅读用户之前的输入信息(比如文章),影响推理的准确性。
针对这个痛点,业内提出了稀疏注意力、检索增强生成等多种技术来应对。这一次,DeepSeek首次提出“上下文光学压缩”(Contexts Optical Compression)技术,通过将文本作为图像来处理,实现信息的高效压缩,理论上甚至可以实现无限上下文。
黄大年茶思屋上的技术专家乔楠认为,DeepSeek此次推出的新模型,本质是模拟人脑的遗忘机制。
简单而言,通过将文本作为图像处理,可以实现7-20倍的token压缩。以一页文本为例,通常需要2000-5000个文本tokens,转换为图像后仅需200-400个视觉tokens。10倍压缩时保持97%的解码精度,20倍压缩时仍有60%精度。而这是实现LLM Memory遗忘机制的关键点。
在乔楠看来,通过将多轮对话中的历史上下文渲染成图像,LLM可以像人一样遗忘。比如近期的对话(如k轮内)保持高分辨率的文本形态;而更早的历史(k轮外)则被压缩成图像。随着时间推移,这些“记忆图像”可以被逐步降采样或缩小(变得更模糊),从而占用更少的Token,模拟人类记忆中“近期信息高保真、远期信息自然褪去”的生物遗忘曲线。
上述图灵量子负责人也表示,“DeepSeek-OCR技术将文本渲染为图像后作为视觉信息处理,大幅降低数据分割和组装的操作次数,从而降低整体计算负荷。这种数据的编码机制,降低了对后端计算硬件(无论是电芯片还是光芯片)在规模和精度上的直接压力。”
进一步,针对光计算,该负责人认为,“(此模型)同样也可以减少光电转化的次数,从而能更有效地将光计算高并行性和低功耗优势发挥出来,相信很快便会有光计算芯片结合大模型的应用出现。”
或触发硬件革命
通过将文本问题转化为图像问题,DeepSeek的OCR技术有可能为光计算芯片进入大语言模型铺平道路。
光计算芯片被誉为“后摩尔时代”的潜力技术,它利用光速传输、高并行性和低功耗的特性,为AI等计算密集型任务提供了新可能。
乔楠认为,光计算的核心优势之一是能以极高速度和极低功耗执行特定计算,如图形处理中常见的傅里叶变换和大规模并行处理。以前引入光计算最大的问题是序列的上下文太长了,光芯片没办法做太大,现在deepseek-ocr提出了光学编码的原生机制,这解决了引入光芯片的最大问题。
在乔楠的构想中,DeepSeek-OCR的DeepEncoder(视觉编码器)部分,会成为一个非常适合由光学协处理器来执行的模块。但文本解码(Decoder部分)仍由电子芯片(GPU/NPU)处理。另外记忆的压缩(文本->图像->视觉Token)则可以完全交给光计算芯片,实现最优分工。
不过,受限于技术、制造、生态等多种边际条件制约,光计算芯片目前仍处于产业化早期。
前述图灵量子负责人就表示,光芯片目前主要还有两个问题需要解决,一是先进光电融合封装,使光源,芯片和探测器件高效集成在芯片上,并确保它们与电子控制单元稳定协作,这是发挥出光计算优势的集成。其次整个光计算的软件生态还不够用成熟,致使大规模开发和优化光计算应用仍存在挑战。
据了解,国内主要参与者有曦智科技,图灵量子,光本位等公司,国外有Lightmatter,Lumai,Cerebras Systems等厂家。
其中,图灵量子一直围绕薄膜铌酸锂(FTLN)开展各方面的研究,具备从设计,版图,流片,测试和封装全流程能力,经过多年的技术迭代和优化,已在TFLN产品方面已取得规模化量产。
图灵量子负责人坦言,“光计算芯片已经驶入了产业化的早期车道,但距离在数据中心里与GPU同台竞技,可能还需要3-5年的时间来攻克工程、成本和生态的难题。”





京公网安备 11011402013531号