刚刚,AI大神Andrej Karpathy表示非常喜欢DeepSeek OCR 论文,原话:
我相当喜欢新的DeepSeek-OCR论文。它是一个很好的OCR模型(可能比dots稍微差一点),是的,数据收集等等,但无论如何都不重要。对我来说更有趣的部分(尤其是作为一个以计算机视觉为核心,暂时伪装成自然语言的人)是像素是否比文本更适合作为LLM的输入。文本标记是否浪费且糟糕,作为输入。
还不知什么情况的看我这篇文章
Karpathy认为,抛开模型本身不谈,deepseek这篇论文引出了一个更值得深思的问题:对于LLM来说,像素是否是比文本更优越的输入形式?文本Token是否既浪费又糟糕?
他进一步设想,或许所有LLM的输入都只应该是图像。即便是纯文本内容,也应该先渲染成图片再输入给模型
Karpathy给出了支持这一构想的四大核心理由:
1. 更高的信息压缩效率
将文本渲染成图像,可以实现更高的信息压缩,这意味着更短的上下文窗口和更高的运行效率
2. 更通用的信息流
像素是一种远比文本更通用的信息流。它不仅能表示纯文本,还能轻松捕捉粗体、彩色文本,甚至是任意的图表和照片
3. 默认实现强大的双向注意力
像素化的输入可以很自然、很轻松地默认使用双向注意力进行处理,这种处理方式比自回归注意力更为强大
4. 彻底淘汰Tokenizer
Karpathy毫不掩饰自己对Tokenizer的嫌弃。他认为Tokenizer是一个丑陋、独立、非端到端的阶段。它引入了Unicode和字节编码的所有丑陋之处,继承了大量历史包袱,并带来了安全和越狱风险(例如连续字节问题)
他举例说,Tokenizer会导致两个在人眼看来完全相同的字符,在网络内部被表示为两个完全不同的Token。一个笑脸emoji,在模型看来只是一个奇怪的Token,而不是一个由像素构成的、真实的笑脸,这导致模型无法利用其视觉信息带来的迁移学习优势。Tokenizer必须消失,他强调
Karpathy总结道,OCR只是众多视觉到文本(vision -> text)任务中的一种。而传统的文本到文本(text -> text)任务,完全可以被重构成视觉到文本任务,反之则不行
他设想的未来交互模式可能是:用户的输入(Message)是图像,而解码器(Assistant的响应)的输出仍然是文本。因为如何真实地输出像素,或者是否有必要这样做,目前还不明确
核心争议:双向注意力与图像分块
对于Karpathy的观点,AI学者Yoav Goldberg提出了两个疑问:
1.为什么说图像能轻松获得双向注意力,而文本不能?
2.虽然没有了Tokenization,但将输入图像切分成图块(Patches),难道不是一种类似且可能更丑陋的处理方式吗?
Karpathy对此进行了解释。
他回应说,原则上没有任何东西阻止文本使用双向注意力。但为了效率,文本通常都是以自回归的方式进行训练的。他设想,可以在训练中期加入一个微调阶段,用双向注意力来处理作为条件的信息(比如用户的输入消息,因为这些Token不需要模型去生成)。但他不确定在实践中是否有人这样做。理论上,为了预测下一个Token,甚至可以对整个上下文窗口进行双向编码,但这将导致训练无法并行化
最后他补充道,或许这个方面(双向注意力)严格来说并非像素与Token的本质区别,更多是像素通常被编码(encoded),而Token通常被解码(decoded)(借用原始Transformer论文的术语)
马斯克:未来99%是光子
在这场讨论的最后,Elon Musk也现身评论区,并给出了一个更具未来感的判断:
从长远来看,AI模型超过99%的输入和输出都将是光子。没有其他任何东西可以规模化
马斯克的这条评论并非随口一说。他进一步补充了一段堪称硬核的宇宙学科普,来解释为什么他认为“光子”是终极的规模化方案
简单来说,宇宙中绝大多数的粒子都是光子
而这些光子最主要的来源,是宇宙微波背景(CMB)。根据测算,CMB的光子密度约为每立方厘米410个。将这个密度乘以可观测宇宙的巨大体积(半径约465亿光年),可以得出仅CMB贡献的光子数量就达到了一个惊人的数字:约1.5 x 10⁸⁹个
相比之下,所有恒星发出的光子(星光)以及其他来源(如中微子背景、黑洞辐射等)贡献的数量,则完全可以忽略不计
这背后揭示的物理事实是:光子在数量级上拥有无与伦比的优势。这或许就是马斯克认为AI的未来输入输出将由光子主宰的底层逻辑