5月9日,DeepSeek 在网页端和手机 App 大范围开放”识图模式”内测,多数测试账号已可使用。该模式基于 DeepSeek-V4 系列,支持图像理解,是 DeepSeek 首次将原生多模态能力开放给终端用户。
上线节奏:4月末灰度 → 5月9日大范围开放
识图模式于 2026 年 4 月 29 日启动灰度测试,初期仅部分账号可见。5 月 9 日起,多数测试账号已能在对话界面通过新增入口接入,界面仍标注”图片理解功能内测中”。
该模式作为独立入口出现,与已有的”快速模式”、”专家模式”并列。用户需手动切换至识图模式方可上传图片,目前未实现文本与图像模态的无缝切换。
技术架构:OCR2 + 视觉因果流,非传统”先OCR再理解”路径
识图模式的技术底座是 DeepSeek-OCR2 视觉编码方案。不同于”先提取文字再输入语言模型”的传统两阶段架构,DeepSeek 采用视觉编码与语言理解在模型内部深度融合的路径。
具体机制包括”视觉因果流”(visual causal flow):模型会按重要性对图像内容排序,先分析用户需求,再”审视”图像,最后生成解释。
官方将这一框架命名为”Thinking with Visual Primitives”(以视觉原语思考),将点、边界框等代表空间位置的视觉元素直接融入推理链条。该设计在 800×800 像素图像上仅需约 90 tokens,对比主流方案消耗的 870 到 1100 tokens 显著降低。
性能数据与使用场景
- 文字提取:清晰图像接近零错误率
- 响应速度:上传后 2-3 秒返回结果(快速模式)
- 复杂任务:几何拼合、UI 截图转 HTML 等场景需开启深度推理,耗时约 4 分钟
可处理场景包括文物年代与文化类型鉴定、复杂图表解读、食品配料分析、产品设计定位推断等。
当前局限
识图模式本质上是纯视觉理解模块。官方确认尚未集成图像生成、视频理解或跨模态交互等广义多模态功能,现阶段仅聚焦图像解析。
模型底座:V4 系列提供算力基础
识图模式基于 DeepSeek-V4 系列。V4-Pro 总参数 1.6T、活跃参数 49B;V4-Flash 总参数 284B、活跃参数 13B。两者均采用 Token-wise compression + DSA 注意力机制,默认上下文 1M tokens。


