
国内大模型厂商正在把 " 长上下文 " 卷成基础配置,而用户还没反应过来这意味着什么。
Claude Code 用户:改三行配置即可切换
Windows 用户找到 ~/.claude/settings.json,macOS 用户终端输入 vim ~/.claude/settings.json。把三个环境变量从 GLM-4.7/GLM-4.5-Air 统一换成 GLM-5.1,保存后新开终端运行 /status 验证。
整个过程不超过两分钟。但有个细节:智谱的模型命名体系正在快速迭代—— 4.5、4.7、5、5.1,半年内连跳四级版本号。产品经理出身的读者应该熟悉这种节奏:要么技术栈在快速收敛,要么团队在试探市场反应。
OpenClaw 用户:需要手动追加模型配置
OpenClaw 的配置路径是 ~/.openclaw/openclaw.json。用户需要在 models.providers.zai.models 数组末尾追加 GLM-5.1 的完整对象,同时修改两处 primary 指向。

GLM-5.1 的配置单里藏着两个信号:reasoning 标记为 true,四项成本均为 0。
reasoning 字段开启,说明这是带思维链的推理模型。成本归零则延续了智谱 Coding Plan 的定价策略——不是 " 限时免费 ",而是直接写入配置文件的 0 元额度。这种打法和 OpenAI 的 API 计费逻辑完全不同:后者按 token 精确到小数点后四位,前者把模型调用打包进订阅制。
20 万 token 上下文,到底能干什么
13.11 万 token 的输出上限,换算成中文大约是 9-10 万字。足够一次性生成完整的技术文档、中型项目的代码评审报告、或者长篇小说的单章草稿。
更实用的场景是代码库理解。把整份 Spring Boot 项目的源码丢进去,让模型分析依赖冲突;或者上传三万行日志,定位那个偶现的内存泄漏。以前需要分段处理的脏活,现在可以端到端解决。
但窗口长度和实际利用率是两回事。智谱没公布 GLM-5.1 的 " 有效上下文 " 指标——模型真正能精准召回的信息密度。20 万 token 的蛋糕很大,吃下去多少是另一件事。

从 GLM-4 到 GLM-5.1,智谱用了不到八个月。作为对比,GPT-4 发布于 2023 年 3 月,GPT-4o 是 2024 年 5 月,中间隔了 14 个月。
快速迭代有两种解释:一是技术储备充足,二是用版本号制造新鲜感。结合 Coding Plan 的订阅制来看,智谱可能更倾向于后者——持续交付 " 新模型 " 作为会员权益,降低用户的续费犹豫。
这种策略的风险在于认知负担。用户刚配好 GLM-5,5.1 就来了;5.1 还没用熟,5.2 可能在路上了。对于企业级客户,稳定性比新特性更重要。
一个尚未解答的问题是:GLM-5.1 和 GLM-5 的关系是什么?迭代还是并行?
配置文件中两者共存,说明不是简单替换。但官方文档没给出选型建议——什么场景用 5,什么场景用 5.1。开发者只能自己跑分测试,或者用 A/B 测试的笨办法。
这很像早期 Android 的版本碎片化:用户手里同时跑着 4.4、5.0、5.1,开发者要逐个适配。大模型时代," 模型碎片化 " 可能成为新的工程痛点。
GLM-5.1 已经对所有 Coding Plan 用户开放。你打算把它塞进哪个工作流——是替换现有的主力模型,还是留给特定的高吞吐任务?