【微博】DeepSeek-OCR
DeepSeek 提出的 OCR 模型,探索验证视觉模态是否能成为长上下文压缩的一种方式,有意思。
人脑思维训练模型,利用图像的二维结构高信息密度,数字信号转模拟信号存储,将文字压缩成图,需要时再反向逆转,利用视觉模型去理解这张图,从视觉特征里还原出文字。
人脑还是更适应图像的理解和记忆,当然存在遗忘曲线,远期记忆自然淡化,DeepSeek 利用 Contexts Optical Compression 光学压缩模拟人类记忆遗忘机制,用分辨率来模拟这种衰减。
通过这样的手段来解决大模型的上下文瓶颈,降低 Token 消耗成本,有东西。
不过高倍率压缩并非无损,从应用场景来看,目前的模型高精度场景还需慎用。
Paper直达
有意思啊