DeepSeek大范围开放识图模式

2026-05-09

多模态

5月9日，DeepSeek 在网页端和手机 App 大范围开放”识图模式”内测，多数测试账号已可使用。该模式基于 DeepSeek-V4 系列，支持图像理解，是 DeepSeek 首次将原生多模态能力开放给终端用户。

上线节奏：4月末灰度 → 5月9日大范围开放

识图模式于 2026 年 4 月 29 日启动灰度测试，初期仅部分账号可见。5 月 9 日起，多数测试账号已能在对话界面通过新增入口接入，界面仍标注”图片理解功能内测中”。

该模式作为独立入口出现，与已有的”快速模式”、”专家模式”并列。用户需手动切换至识图模式方可上传图片，目前未实现文本与图像模态的无缝切换。

识图模式的技术底座是 DeepSeek-OCR2 视觉编码方案。不同于”先提取文字再输入语言模型”的传统两阶段架构，DeepSeek 采用视觉编码与语言理解在模型内部深度融合的路径。

具体机制包括”视觉因果流”（visual causal flow）：模型会按重要性对图像内容排序，先分析用户需求，再”审视”图像，最后生成解释。

官方将这一框架命名为”Thinking with Visual Primitives”（以视觉原语思考），将点、边界框等代表空间位置的视觉元素直接融入推理链条。该设计在 800×800 像素图像上仅需约 90 tokens，对比主流方案消耗的 870 到 1100 tokens 显著降低。

可处理场景包括文物年代与文化类型鉴定、复杂图表解读、食品配料分析、产品设计定位推断等。

识图模式本质上是纯视觉理解模块。官方确认尚未集成图像生成、视频理解或跨模态交互等广义多模态功能，现阶段仅聚焦图像解析。

识图模式基于 DeepSeek-V4 系列。V4-Pro 总参数 1.6T、活跃参数 49B；V4-Flash 总参数 284B、活跃参数 13B。两者均采用 Token-wise compression + DSA 注意力机制，默认上下文 1M tokens。