Karpathy和DeepSeek-OCR说的“遗忘”是一回事吗

笔者最近在Navi AI构建一个辅助分析决策的Agent应用，构建过程中Dogfooding自己的产品总会有些惊喜时刻，可惜产品完整launch还需要一点时间，所以最近决定尝试先把一些“中间过程”的产物分享出来。

这篇文章来自一个疑问：

DeepSeek最新的OCR模型论文中提出了一种名为“上下文视觉压缩”的创新范式，利用视觉模态token作为文本信息的高效压缩，并且可以通过不同“分辨率”的调节（较远的上下文低分辨率、较近的高分辨率）实现对“遗忘”的模拟，从而为解决LLM长上下文在二次方计算复杂度上的性能瓶颈提供了新的解题思路。
而正好Andrej Karpathy在最近的播客节目中提出了一个反直觉的观点：人类的遗忘机制并非缺陷，而是一种进化优势，大模型未来的突破可能来自将其理解和推理的能力从目前预训练获得的大参数化的记忆能力中剥离出来。

直觉上这两者好像在说同一件事？但看了一些解读之后又感觉部分自媒体老师有点过于拔高了，所以跟AI一起deep research了一下这个问题，希望对你有启发。　

上下文出处：

DeepSeek-OCR论文：https://github.com/deepseek-ai/DeepSeek-OCR

Karpathy的访谈：https://www.youtube.com/watch?v=lXUZvyajciY

DEEPSEEK-OCR

DeepSeek-OCR的“模拟遗忘”机制解析

DeepSeek-OCR提出的“上下文视觉压缩”技术，其核心思想是为解决LLM处理长上下文时的计算效率瓶颈。该技术并非简单地追求信息压缩，而是通过一种模拟生物记忆衰减的方式，为构建理论上无限长的上下文处理架构提供了工程上的可能性。

1.1 技术实现：从高保真到渐进式模糊

该技术的核心在于其创新的DeepEncoder视觉编码器，它通过一个分层处理和压缩的流程，将文档图像中的海量文本信息高效地压缩为少量视觉token。

1.初步感知与分词：基于窗口注意力的SAM模型首先对高分辨率图像进行处理，生成大量初始视觉token。

2.核心压缩：一个16倍下采样的卷积模块大幅减少token数量，这是实现高压缩比和控制计算成本的关键。

3.深度编码：压缩后的token再被送入基于全局注意力的CLIP模型，以提取高级特征。

最重要的是，该模型通过支持多种分辨率模式，实现了对“遗忘”的物理模拟。

近期记忆（高保真）：对于近期信息，采用Large或Gundam等高分辨率模式处理，消耗更多视觉token，确保信息“晶莹剔透”（Crystal Clear）。

远期记忆（有损压缩）：对于远期历史，则逐步降级到Base、Small甚至Tiny等低分辨率模式。这一过程通过降低图像分辨率，物理上地使信息变得“模糊”（Blurry），最终“几乎消失”（Almost Gone），从而用更少的计算资源来表征那些不那么重要的历史信息。

1.2 压缩率与信息保真度的权衡

论文通过在Fox基准数据集上的量化实验，清晰地揭示了压缩率与信息保真度之间的关系，为“遗忘”机制的有效性提供了数据支持。

近无损区间：在10倍压缩比以内，模型能以约97%的高精度解码文本，这对应了对近期记忆的高保真存储。

性能衰减曲线：当压缩比提升至近20倍时，精度下降至约60%。这种性能的平滑下降，恰恰为模拟记忆的渐进式遗忘提供了可能——远期记忆虽模糊，但并未完全丢失，核心信息仍有被提取的可能。

论文指出，信息损失主要源于高压缩比导致的布局信息丢失和文本分辨率模糊。

FORGETTING

KARPATHY'S VIEW

Karpathy的“遗忘优势论”核心论点

Andrej Karpathy从认知哲学的角度提出了一个革命性的观点：对于构建通用人工智能而言，遗忘是一种优势，而非缺陷。他批判了当前LLM因“记忆力太好”而导致的种种局限。

2.1 “遗忘是特性，而非缺陷”

Karpathy认为，人类有限的记忆力是一种强大的进化特性，它迫使我们放弃对海量细节的记忆，转而去学习和归纳事物背后更深层、更通用的模式。

“见林不见木”：正是因为记不住所有的“树木”（细节），我们才被迫去理解“森林”（整体结构与规律），这是形成真正泛化能力的基础。

LLM的“记忆干扰”：相比之下，LLM惊人的记忆力（能够逐字复现训练数据）反而是一种“干扰”，使其过度依赖记忆而非理解，导致在面对训练数据分布之外的新情况时表现不佳。

2.2 “认知核心”与两种记忆的区分

为了实现真正的智能，Karpathy构想了一个名为“认知核心”（Cognitive Core）的理想实体。

定义：一个被剥离了具体事实性知识，但完整保留了思考“算法”、解决问题策略和认知方法的纯粹智能体。它掌握了“如何思考”，而非“记住了什么”。

为了阐明当前LLM的结构性缺陷，他巧妙地区分了两种记忆：

权重记忆（长期模糊记忆）：模型在预训练中，将海量数据（如15万亿token）极度压缩进模型权重，这是一种“朦胧的回忆”（hazy recollection），信息密度极低（约0.07比特/token）。

工作记忆（高保真瞬时记忆）：模型在推理时，输入到上下文窗口并通过KV缓存访问的信息。这是一种高保真的“工作记忆”，信息密度极高（约320千字节/token）。

Karpathy指出，当前LLM架构的核心缺陷在于，缺乏一个能将“工作记忆”中的重要经验，经过深思熟虑地“蒸馏”回“权重记忆”的机制——这类似于人类在睡眠中进行记忆巩固和筛选的过程，也是“持续学习”未能实现的关键瓶颈。

SYNTHESIS

“术”与“道”的呼应

将DeepSeek-OCR的工程实践与Karpathy的哲学思辨并置分析，可以发现两者在不同层面形成了呼应。

共同指向“遗忘”的价值：两者都将“遗忘”视为一种高级智能的体现。DeepSeek-OCR将其作为一种在计算约束下管理无限信息的有效资源优化策略；而Karpathy则将其提升为一种催生泛化能力的认知催化剂。

“渐进式压缩”作为“遗忘”的技术路径：DeepSeek-OCR提出的“越久远的信息越模糊”的压缩机制，与Karpathy关于近期“工作记忆”清晰、远期记忆模糊的类比有契合点。它为Karpathy所指出的、“将工作记忆蒸馏回权重记忆”这一缺失环节，提供了一种具体的技术实现思路——通过物理上的信息降质（降低分辨率）来处理和压缩逐渐远去的“工作记忆”。

共同应对无限信息流的挑战：两者最终都指向了同一个根本性问题——如何在有限的计算资源下，有效处理无限的信息流。DeepSeek-OCR提供了一种基于“时间/距离”的信息动态压缩方案，而Karpathy则倡导一种基于“知识/算法”的分离模型。其核心思想一致：必须建立一种智能化的信息筛选与压缩机制，将有限的资源集中用于处理最核心、最通用的信息。

CRITIQUE

深层差异与潜在矛盾

尽管存在呼应，但将DeepSeek-OCR的技术实现等同于Karpathy的哲学理念是存在风险的，两者在动机、作用层面和预期效果上存在本质差异。

核心矛盾

核心矛盾在于，DeepSeek-OCR的机制本质上是让一个模型去处理被外部模糊化的信息，这提升了它在感知层面的鲁棒性。然而，这与Karpathy所期望的、在认知层面因“记不住”而被迫进行抽象和泛化，是两个不同维度的概念。学会从模糊图像中做OCR，不必然等同于学会了“见林不见木”的思维方式。

必须清醒地认识到，当前的技术实现与构想之间仍存在巨大鸿沟。DeepSeek-OCR的“视觉压缩”更像是一个高效的“记忆辅助处理器”，它管理着一个本身记忆力超群的模型的输入。而Karpathy的“认知核心”则呼吁对AI的学习范式本身进行重塑，旨在创造一个本质上就不依赖死记硬背的智能体。将前者的技术成就直接视为后者的哲学理念的达成，是一种误读。

一个真正智能的系统，或许不仅需要一个能被动遗忘的记忆系统，更需要一种能主动从遗忘中汲取智慧的内在机制。

{{userData.name}}已认证

用户体验新范式：AI 如何重新定义产品设计架构

实测上百款MCP后，我发现这10款才是真正能提升生产力的神器！