DeepSeek 提出的 OCR 模型，探索验证视觉模态是否能成为长上下文压缩的一种方式，有意思。

人脑思维训练模型，利用图像的二维结构高信息密度，数字信号转模拟信号存储，将文字压缩成图，需要时再反向逆转，利用视觉模型去理解这张图，从视觉特征里还原出文字。

人脑还是更适应图像的理解和记忆，当然存在遗忘曲线，远期记忆自然淡化，DeepSeek 利用 Contexts Optical Compression 光学压缩模拟人类记忆遗忘机制，用分辨率来模拟这种衰减。

通过这样的手段来解决大模型的上下文瓶颈，降低 Token 消耗成本，有东西。

不过高倍率压缩并非无损，从应用场景来看，目前的模型高精度场景还需慎用。

Paper直达

本文链接：