-
DeepSeek最新的OCR模型论文中提出了一种名为“上下文视觉压缩”的创新范式,利用视觉模态token作为文本信息的高效压缩,并且可以通过不同“分辨率”的调节(较远的上下文低分辨率、较近的高分辨率)实现对“遗忘”的模拟,从而为解决LLM长上下文在二次方计算复杂度上的性能瓶颈提供了新的解题思路。 -
而正好Andrej Karpathy在最近的播客节目中提出了一个反直觉的观点:人类的遗忘机制并非缺陷,而是一种进化优势,大模型未来的突破可能来自将其理解和推理的能力从目前预训练获得的大参数化的记忆能力中剥离出来。
暂无讨论,说说你的看法吧


