文 | 字母 AI
" 跳票 " 许久的 DeepSeek-V4,终于来了。
几个小时前,DeepSeek-V4 预览版上线并开源。巧的是,几乎同一天,OpenAI 也推出了 GPT-5.5。一个继续讲闭源生产力系统,一个继续讲开源、长上下文和低成本推理。中美 AI 产业中流量最大的两家基模公司,在同一天相遇。
DeepSeek-V4 分为 Pro 与 Flash 两个版本,均支持百万(1M)token 超长上下文,总参数规模分别达到 1.6T(激活 49B)与 284B(激活 13B)。。

根据 HuggingFace 上 V4 系列的介绍,在 100 万 token 上下文场景下,V4-Pro 的单 token 推理 FLOPs 只有 V3.2 的 27%,KVcache 只有 V3.2 的 10%。
翻译成人话就是,在处理超长材料的场景下,V4 不只是 " 能装得下 ",而且跑得更快、还更便宜。
这也许是是 V4 这次更新中最值得关注的地方。
过去半年,长上下文已经成了头部模型的共同卖点。Claude、Qwen、Kimi、GLM 都在往长文本、代码仓库和 Agent 任务上走,DeepSeek 这次把主线放在了长文本场景里最贵的部分:计算和缓存。
略显遗憾的是,V4 目前并没有原生多模态功能,这会限制它在一些场景的发挥。
所以,V4 的关键词,并不是行业内期盼已久的 " 新物种 ",而是 " 效率工程 " 的再进一步。
回顾过往也确实如此,DeepSeek 这家公司,一直都不是那种 " 性感 " 产品的路线,在 Token 调用暴涨的海洋中,V4 要撑起的,是这家超级独角兽 200 亿美元估值的野望。
更快,但是没有原生多模态
身处 2026 年的今天,大模型支持长上下文已经不稀奇。但是另一个问题也随之而来:模型处理超长文本、超长链路的情况下,还能不能高效地继续工作。
一个模型如果只看几段文字,回答问题并不难;但如果让它看完整代码仓库、几十份合同、几个月会议记录,再持续生成、检索、改代码、调用工具,这个事情的难度会指数级增加。
V4-Pro 的单 token 推理 FLOPs 只有 V3.2 的 27%,KVcache 只有 V3.2 的 10%,正好对照着这个问题的答案。
前者指向每生成一个 token 所需的计算量,后者指向 KVcache 占用。KVcache 可以理解成模型处理长文本时需要随身携带的 " 工作记忆 "。

所以,天下武功,唯快不破。
这里的快,不是聊天窗口里早几秒回答,而是长文本任务中的运行效率。吃下 1M 文本之后之后,模型还能不能跑得动、跑得起,能不能支撑高频调用。
这一点在今天上线的 GPT5.5 中也有所体现,很多 ChatGPT 用户惊呼,GPT5.5-Thinking 的响应速度,快了一不是一星半点。
结合眼下爆火的 Agent 工作流,这项指标提升就更为关键。包括 OpenClaw 在内的系统级 Agent 工具,在运行任务时,往往需要读文件、查资料、调用工具、修改代码、保存中间状态,再根据反馈继续下一步。
任务越真实,上下文越长,计算和缓存负担越容易滚雪球。很多 Agent 产品今天看起来像未来,一算成本就像灾难。V4 如果真能把长上下文下的运行效率压下来,影响的是整个 Agent 工具链的成本结构。
字母 AI 也简单上手体验了一下 DeepSeek V4Pro,我们搭建了一个简易的离线环境,跑了两个贴近日常用户场景的测试。

V4Pro 的表现比较像一个成熟技术编辑。它没有把材料逐条复述,而是抓住了一条主线:Agent 的竞争不只是模型参数,而是模型如何稳定接入外部系统。换句话说,模型不能只会 " 想 ",还要能读文件、查数据库、调用工具、把结果写回业务系统。
它把结构化输出理解成 " 让模型说出机器能直接读懂的话 ",把 MCP 理解成 " 让模型应用更容易接外部工具的标准接口 ",这就比单纯解释术语更接近真实产品。
第二个测试,是让它用 Python 写一个本地命令行工具,用来管理每天收集的 AI 行业新闻线索。这个 Prompt 写的很简单,只有几个基础的限制条件:不要联网,不调用 API;能新增、查看、筛选、去重、自动打新闻价值分,并导出 markdown 日报。
V4 Pro 直接给出了一个能跑的小工具。
用户可以录入公司、标题、类型、来源、链接、时间、正文和核验状态,程序会自动计算新闻价值分,再把线索分成 " 可直接引用 "" 需要继续核实 "" 暂不采用 "。导出的 markdown 也会按层级分组,保留公司、标题、类型、分数、来源等维度。

在 OpenRouter 这类开发者渠道上,DeepSeekV3 系已经证明过自己的性价比和使用惯性。
OpenRouter 数据显示,DeepSeekV3 系列在 2025 年 token 消费超过 7.27 万亿,排名第五,仅次于 ClaudeSonnet4、Gemini2.0Flash 等模型。而直到今天,DeepSeekV3.2 的调用量,依旧在 OpenRouter 榜单中名列前茅。
这说明用户认可的从来不只是 benchmark,而是一个模型在真实工作流里是否稳定、便宜、高效。
这一点也可以放到 Claude 身上看。
在各大模型能力榜单上,ClaudeOpus4.6 和 GPT-5.4 系列的对比中,结论并不总是 Claude 全面领先,甚至在一些知识、推理、速度指标上,GPT-5.4 要表现的更好。
但这并不妨碍 Claude 在过去一段时间里继续收割开发者和企业市场。Anthropic 今年 2 月披露,按当时收入节奏折算,公司年收入规模已达到 140 亿美元;过去三年里,其收入每年都实现 10 倍以上增长。
所以,想要客观看待一个模型的能力,还是得放到真实工作流看实际工程表现。
当然,V4 也不是没有短板。最大的遗憾,是它目前缺乏 " 原生多模态 " 的加持。早在发布前,社区对 V4 的期待就不只是文本模型。一些媒体此前也曾报道称,DeepSeekV4 计划是一个能处理图片、视频和文本生成的多模态模型。
缺少了多模态能力,确实会带来一个现实问题,一旦涉及视觉理解、图表解析、、PPT/ 网页 / 软件界面处理这些场景里,就到了模型的能力边界外。
今天的生产力任务已经不再只是 " 读一段文字 "。很多用户真正要处理的是图片、表格、截图、PDF、网页、视频会议和复杂软件界面。没有原生多模态,V4 仍然可以是强大的长任务底座,但还不是完整的工作入口。
当然,也可以从另一个角度理解,站在融资和 IPO 的十字路口,V4 首先给母公司解决的是地基问题,而不是建好整栋楼的问题。
走在融资路口的 DeepSeek
V4 发布的另一个背景,是 DeepSeek 融资消息突然密集起来。
显然,作为中国 AI 行业的稀有物种, DeepSeek 一直不太缺钱。
过去,DeepSeek 最有辨识度的标签之一,就是它不像典型 AI 独角兽那样靠融资叙事往前推。它背后有量化资金公司幻方的资金支持,又有梁文锋这样的旗帜性人物,长期以来在业内保持着神秘且专注的形象。
但在最近一段时间,情况开始发生变化。最新报道显示,DeepSeek 正在以超过 200 亿美元估值寻求融资,阿里、腾讯等公司据称正在洽谈投资。具体的数字仍在谈判中,但方向已经足够清楚:DeepSeek 已经走到了迎接资本市场的节点。
而 V4,就是这个节点上的一个重要抓手。V4 专注于讲效率的逻辑背后,实际上是抓住了当前的开发者群体最关心的部分,可预测的调用需求可能被进一步放大,进而推动更多的商业化落地。
这也是 DeepSeek 接下来最难的一关。200 亿美元估值要证明的,不只是模型强,而是模型能不能转成稳定的商业系统。。
这一点上,竞争对手们已经在行动起来。Qwen、GLM、Kimi 都在向 Agentic Coding、工具调用和长任务执行靠拢,Claude 也已经把企业知识工作和代码工作流做成了最重要的商业抓手。
显然,依托 V4 的能力,Deepseek 还需要更多产品层面的落地。
Agent 不是底座模型自己就能跑通,它还需要浏览器、文件系统、权限系统、企业软件接口、插件生态和产品体验。V4 就算解决了地基问题,如何建立起一套生产力场景的用户生态,是粱文锋和团队接下来要思考的问题。
所以,V4 最准确的定位不是,并不是人们想象中的模型新物种,而是把 " 开源模型任务底座 " 提升到了一个新的高度。
过去,DeepSeek 已经证明了,中国公司可以用更低成本做出强模型。V4 要证明的是,在百万上下文、Agent、国产算力和商业化同时到来的阶段,这套低成本路线还能不能继续成立。
眼下,V4 已经把效率牌打出来了。接下来,DeepSeek 要回答的是,这张牌能不能撑起一家 200 亿美元公司的商业体量。