DeepSeek 公布多模态模型技术报告

IT 之家 4 月 30 日消息，DeepSeek 在 GitHub 平台正式发布了其多模态大模型，并同步公开了配套技术报告。该报告提出了一种基于 " 视觉原语 " 的创新推理框架，旨在突破当前多模态大语言模型（MLLMs）在空间参照任务中的核心瓶颈。

技术报告指出，尽管多模态大语言模型近年来取得长足进步，但主流的链式思维（CoT）推理范式仍主要局限于语言学领域。现有研究多聚焦于通过高分辨率图像裁剪等技术手段弥合 " 感知鸿沟 "，即提升模型对视觉细节的识别能力。然而，DeepSeek 团队认为，这一思路忽视了一个更为根本的限制：参照鸿沟。

自然语言固有的模糊性使其难以对复杂的空间布局提供精确、明确的指引。当模型需要执行涉及严谨空间参照的任务时，这种语言表达的局限性往往导致推理链条断裂，出现逻辑崩溃。

针对上述问题，DeepSeek 提出了 " 基于视觉原语的思考 "（Thinking with Visual Primitives）框架。该框架将点、边界框等空间标记从单纯的视觉输入元素，提升为推理过程中的 " 基本思维单元 "。通过将这些视觉原语直接嵌入模型的思考链路，DeepSeek 使模型在推理过程中具备了 " 指代 " 能力 —— 即能够将抽象的认知轨迹锚定到图像的具体物理坐标上，从而实现对空间关系的精确推演。

技术报告披露，该框架采用了高度优化的模型架构，具备极高的视觉标记效率。尽管模型规模紧凑且图像标记预算显著较低，DeepSeek 的多模态模型在具有挑战性的计数和空间推理基准测试上，能够与 GPT-5.4、Claude-Sonnet-4.6 和 Gemini-3-Flash 等前沿模型匹配。这为开发更高效、更具可扩展性的 System-2 类多模态智能指明了方向。

IT 之家注意到，DeepSeek 此前已经上线了 " 识图模式 "，该模式和 " 快速模式 "" 专家模式 " 并列，并非简单的 OCR 文字，而是终于具备了多模态识别能力。

阿里深夜调价，发生了什么

钛媒体 4小时前

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

DeepSeek 公布多模态模型技术报告

宙世代

一起剪

相关阅读

“评价都不要信”，俞浩为何暴怒

三星要造安卓笔记本！入门到旗舰全覆盖

鸿蒙智行4月交付32759台！问界M6上市即爆款：15分钟大定破万、一周交付5000台

首次纯白！华擎发布白色版X870E太极旗舰主板 直奔4500元

DLSS有对手了 微软神助攻AMD掌机：Auto SR游戏性能暴涨50%

DeepSeek V4距全球最强AI有多远 美国公布结果：落后7个月

用户这次不会反对了 微软再给Word引入AI功能：帮你整理文档

DDR5冲刺12800MT/s！JEDEC更新MRDIMM标准：Gen2接近完成

阿里深夜调价，发生了什么

别等了：内存短缺缓解价格也不会降！韩国机构：市场判断全错了

Port Royal首次破5万！ROG夜神 RTX 5090凡尔赛时刻：我还没用双接口 世界纪录就到手了

美国企业自己选的中国AI 国会议员却坐不住了：给我查！

38个本科新专业来了 藏着高考报考新风口？

太极系列首次全白化！华擎发布X870E Taichi White旗舰主板：为9950X3D2打造

PayPal重组：Venmo将分拆为独立业务部门

最新评论

IT之家

热门推荐

企业资讯

首次纯白！华擎发布白色版X870E太极旗舰主板直奔4500元

DLSS有对手了微软神助攻AMD掌机：Auto SR游戏性能暴涨50%

DeepSeek V4距全球最强AI有多远美国公布结果：落后7个月

用户这次不会反对了微软再给Word引入AI功能：帮你整理文档

Port Royal首次破5万！ROG夜神 RTX 5090凡尔赛时刻：我还没用双接口世界纪录就到手了

38个本科新专业来了藏着高考报考新风口？