实测 DeepSeekV4：天下武功，唯快不破

文 | 字母 AI

" 跳票 " 许久的 DeepSeek-V4，终于来了。

几个小时前，DeepSeek-V4 预览版上线并开源。巧的是，几乎同一天，OpenAI 也推出了 GPT-5.5。一个继续讲闭源生产力系统，一个继续讲开源、长上下文和低成本推理。中美 AI 产业中流量最大的两家基模公司，在同一天相遇。

DeepSeek-V4 分为 Pro 与 Flash 两个版本，均支持百万（1M）token 超长上下文，总参数规模分别达到 1.6T（激活 49B）与 284B（激活 13B）。。

不过，相比起 "1.6T 参数 " 或者 " 百万 token 上下文 " 这两个夸张数字，技术文档里的两个十位数更值得关注：27% 和 10%。

根据 HuggingFace 上 V4 系列的介绍，在 100 万 token 上下文场景下，V4-Pro 的单 token 推理 FLOPs 只有 V3.2 的 27%，KVcache 只有 V3.2 的 10%。

翻译成人话就是，在处理超长材料的场景下，V4 不只是 " 能装得下 "，而且跑得更快、还更便宜。

这也许是是 V4 这次更新中最值得关注的地方。

过去半年，长上下文已经成了头部模型的共同卖点。Claude、Qwen、Kimi、GLM 都在往长文本、代码仓库和 Agent 任务上走，DeepSeek 这次把主线放在了长文本场景里最贵的部分：计算和缓存。

略显遗憾的是，V4 目前并没有原生多模态功能，这会限制它在一些场景的发挥。

所以，V4 的关键词，并不是行业内期盼已久的 " 新物种 "，而是 " 效率工程 " 的再进一步。

回顾过往也确实如此，DeepSeek 这家公司，一直都不是那种 " 性感 " 产品的路线，在 Token 调用暴涨的海洋中，V4 要撑起的，是这家超级独角兽 200 亿美元估值的野望。

更快，但是没有原生多模态

身处 2026 年的今天，大模型支持长上下文已经不稀奇。但是另一个问题也随之而来：模型处理超长文本、超长链路的情况下，还能不能高效地继续工作。

一个模型如果只看几段文字，回答问题并不难；但如果让它看完整代码仓库、几十份合同、几个月会议记录，再持续生成、检索、改代码、调用工具，这个事情的难度会指数级增加。

V4-Pro 的单 token 推理 FLOPs 只有 V3.2 的 27%，KVcache 只有 V3.2 的 10%，正好对照着这个问题的答案。

前者指向每生成一个 token 所需的计算量，后者指向 KVcache 占用。KVcache 可以理解成模型处理长文本时需要随身携带的 " 工作记忆 "。

文本越长，这份工作记忆越重；如果每一步都背着完整包袱走，模型就很难轻快起来。

所以，天下武功，唯快不破。

这里的快，不是聊天窗口里早几秒回答，而是长文本任务中的运行效率。吃下 1M 文本之后之后，模型还能不能跑得动、跑得起，能不能支撑高频调用。

这一点在今天上线的 GPT5.5 中也有所体现，很多 ChatGPT 用户惊呼，GPT5.5-Thinking 的响应速度，快了一不是一星半点。

结合眼下爆火的 Agent 工作流，这项指标提升就更为关键。包括 OpenClaw 在内的系统级 Agent 工具，在运行任务时，往往需要读文件、查资料、调用工具、修改代码、保存中间状态，再根据反馈继续下一步。

任务越真实，上下文越长，计算和缓存负担越容易滚雪球。很多 Agent 产品今天看起来像未来，一算成本就像灾难。V4 如果真能把长上下文下的运行效率压下来，影响的是整个 Agent 工具链的成本结构。

字母 AI 也简单上手体验了一下 DeepSeek V4Pro，我们搭建了一个简易的离线环境，跑了两个贴近日常用户场景的测试。

首先，我们给了 V4 Pro 一组关于 MCP、结构化输出、工具调用、端侧模型和推理服务的材料，让它写一份技术分析。这个任务主要是考验，模型能不能把一堆概念和名词，整理成一张清楚的工程图。

V4Pro 的表现比较像一个成熟技术编辑。它没有把材料逐条复述，而是抓住了一条主线：Agent 的竞争不只是模型参数，而是模型如何稳定接入外部系统。换句话说，模型不能只会 " 想 "，还要能读文件、查数据库、调用工具、把结果写回业务系统。

它把结构化输出理解成 " 让模型说出机器能直接读懂的话 "，把 MCP 理解成 " 让模型应用更容易接外部工具的标准接口 "，这就比单纯解释术语更接近真实产品。

第二个测试，是让它用 Python 写一个本地命令行工具，用来管理每天收集的 AI 行业新闻线索。这个 Prompt 写的很简单，只有几个基础的限制条件：不要联网，不调用 API；能新增、查看、筛选、去重、自动打新闻价值分，并导出 markdown 日报。

V4 Pro 直接给出了一个能跑的小工具。

用户可以录入公司、标题、类型、来源、链接、时间、正文和核验状态，程序会自动计算新闻价值分，再把线索分成 " 可直接引用 "" 需要继续核实 "" 暂不采用 "。导出的 markdown 也会按层级分组，保留公司、标题、类型、分数、来源等维度。

这个测试能说明一个问题：V4 Pro 可以把一个相对复杂的意图拆成结构、规则和可执行代码，这和 DeepSeek 过去的用户心智是契合的。

在 OpenRouter 这类开发者渠道上，DeepSeekV3 系已经证明过自己的性价比和使用惯性。

OpenRouter 数据显示，DeepSeekV3 系列在 2025 年 token 消费超过 7.27 万亿，排名第五，仅次于 ClaudeSonnet4、Gemini2.0Flash 等模型。而直到今天，DeepSeekV3.2 的调用量，依旧在 OpenRouter 榜单中名列前茅。

这说明用户认可的从来不只是 benchmark，而是一个模型在真实工作流里是否稳定、便宜、高效。

这一点也可以放到 Claude 身上看。

在各大模型能力榜单上，ClaudeOpus4.6 和 GPT-5.4 系列的对比中，结论并不总是 Claude 全面领先，甚至在一些知识、推理、速度指标上，GPT-5.4 要表现的更好。

但这并不妨碍 Claude 在过去一段时间里继续收割开发者和企业市场。Anthropic 今年 2 月披露，按当时收入节奏折算，公司年收入规模已达到 140 亿美元；过去三年里，其收入每年都实现 10 倍以上增长。

所以，想要客观看待一个模型的能力，还是得放到真实工作流看实际工程表现。

当然，V4 也不是没有短板。最大的遗憾，是它目前缺乏 " 原生多模态 " 的加持。早在发布前，社区对 V4 的期待就不只是文本模型。一些媒体此前也曾报道称，DeepSeekV4 计划是一个能处理图片、视频和文本生成的多模态模型。

缺少了多模态能力，确实会带来一个现实问题，一旦涉及视觉理解、图表解析、、PPT/ 网页 / 软件界面处理这些场景里，就到了模型的能力边界外。

今天的生产力任务已经不再只是 " 读一段文字 "。很多用户真正要处理的是图片、表格、截图、PDF、网页、视频会议和复杂软件界面。没有原生多模态，V4 仍然可以是强大的长任务底座，但还不是完整的工作入口。

当然，也可以从另一个角度理解，站在融资和 IPO 的十字路口，V4 首先给母公司解决的是地基问题，而不是建好整栋楼的问题。

走在融资路口的 DeepSeek

V4 发布的另一个背景，是 DeepSeek 融资消息突然密集起来。

显然，作为中国 AI 行业的稀有物种， DeepSeek 一直不太缺钱。

过去，DeepSeek 最有辨识度的标签之一，就是它不像典型 AI 独角兽那样靠融资叙事往前推。它背后有量化资金公司幻方的资金支持，又有梁文锋这样的旗帜性人物，长期以来在业内保持着神秘且专注的形象。

但在最近一段时间，情况开始发生变化。最新报道显示，DeepSeek 正在以超过 200 亿美元估值寻求融资，阿里、腾讯等公司据称正在洽谈投资。具体的数字仍在谈判中，但方向已经足够清楚：DeepSeek 已经走到了迎接资本市场的节点。

而 V4，就是这个节点上的一个重要抓手。V4 专注于讲效率的逻辑背后，实际上是抓住了当前的开发者群体最关心的部分，可预测的调用需求可能被进一步放大，进而推动更多的商业化落地。

这也是 DeepSeek 接下来最难的一关。200 亿美元估值要证明的，不只是模型强，而是模型能不能转成稳定的商业系统。。

这一点上，竞争对手们已经在行动起来。Qwen、GLM、Kimi 都在向 Agentic Coding、工具调用和长任务执行靠拢，Claude 也已经把企业知识工作和代码工作流做成了最重要的商业抓手。

显然，依托 V4 的能力，Deepseek 还需要更多产品层面的落地。

Agent 不是底座模型自己就能跑通，它还需要浏览器、文件系统、权限系统、企业软件接口、插件生态和产品体验。V4 就算解决了地基问题，如何建立起一套生产力场景的用户生态，是粱文锋和团队接下来要思考的问题。

所以，V4 最准确的定位不是，并不是人们想象中的模型新物种，而是把 " 开源模型任务底座 " 提升到了一个新的高度。

过去，DeepSeek 已经证明了，中国公司可以用更低成本做出强模型。V4 要证明的是，在百万上下文、Agent、国产算力和商业化同时到来的阶段，这套低成本路线还能不能继续成立。

眼下，V4 已经把效率牌打出来了。接下来，DeepSeek 要回答的是，这张牌能不能撑起一家 200 亿美元公司的商业体量。

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

实测 DeepSeekV4：天下武功，唯快不破

宙世代

一起剪

相关阅读

有爱一幕！前荣耀CEO赵明现身小米汽车展台 耐心听讲解

iPhone 18 Pro复刻远峰蓝：iPhone 13 Pro爆款神色回归 老果粉心动了

Windows 95老电脑跑最新Linux：开发者耗时6年做到了！

客户还在犹豫 英特尔已经用自研芯片为14A工艺正名了！

CPU正在卡AI的脖子 Intel：这可不是我们自己吹牛 是客户说的

史上最厚苹果手机！iPhone 18 Pro Max厚度突破13mm：果粉吐槽像砖头

连接百万商家与服务商：2026京东服务商生态伙伴大会在京举行

从零训练一个原生大脑，自变量选择入驻真实家庭“实习”

希捷推出系列存储新品，应对消费端数据爆发式增长

大厂抢人：宁要一个“亿元大脑”，不要百个“代码民工”

融了2000万美金，这家2000万美金ARR的AI公司，推出“视频版Photoshop”「Buzzy」

地平线连放「三把火」，英伟达的好日子到头了？

游戏开发圈心照不宣的事 被谷歌给捅破了：九成游戏全靠AI代工！

马斯克要造自研GPU了！1.75万亿美元IPO文件曝光

实测GPT5.5 : 最强模型不是嘴炮，它真能干活儿

最新评论

钛媒体

热门推荐

企业资讯

有爱一幕！前荣耀CEO赵明现身小米汽车展台耐心听讲解

iPhone 18 Pro复刻远峰蓝：iPhone 13 Pro爆款神色回归老果粉心动了

客户还在犹豫英特尔已经用自研芯片为14A工艺正名了！

CPU正在卡AI的脖子 Intel：这可不是我们自己吹牛是客户说的

游戏开发圈心照不宣的事被谷歌给捅破了：九成游戏全靠AI代工！