对 Anthropic 贴脸开大：智谱 GLM-5.2 凭什么杀入世界编程三强？

文 | 超前实验室，作者｜青苹吹果，编辑｜无心插柳柳橙汁

六月的 AI 圈真是热闹。

先是 Anthropic 突遭美国商务部发函，援引 " 国家安全 " 条款，勒令其立即切断 Fable 5 和 Mythos 5 面向外国公民的全部访问通道。

于是 Anthropic 干脆直接把这两款模型对全球所有用户关停，谁都别用。

上线仅仅 72 小时，被寄予厚望的 " 全世界最强模型 "，说没就没了。

这事儿在 X 上爆出了上千万的阅读量。很多依赖 Fable 5 构建产品的开发者一觉醒来，发现自己的工具链直接断掉了。

那种感觉就像你正兴致勃勃地干活干到一半，连员工带生产工具全给你没收了，难受得很。

而几乎同一时间，智谱突然发布公告，将旗下最强模型 GLM-5.2 全量开放，并且直言：前沿智能属于所有人！

格局，这就叫格局。

更有意思的是时间点，Anthropic 是 5 点 21 分收到的那封信，智谱也选在 5 点 21 分开放了 GLM-5.2。简直是 " 贴脸开大 "。

前沿智能前脚被筑起的封闭围墙，后一秒就被智谱直接砸穿，这波戏剧性简直拉满。

而对于智谱的此举，市场也给予了高调回应——

就在前几天，智谱在港股的市值盘中突破了 1 万亿港元，年内涨幅超过 1900%，成为了中国首个万亿 AI 公司！

很显然，这是整个市场在用真金白银给中国开源大模型重新定价。

国产 AI 首度跻身编程 " 御三家 " 之列

如果你平时比较关注 AI 编程，应该知道过去提到最强 Coding 模型，大家嘴里的 " 御三家 " 通常是 Claude、OpenAI 和谷歌。

但现在不一样了，GLM-5.2 上桌了。

在汇集全球百万用户盲测的代码能力评估系统 Code Arena 上，GLM-5.2 以 1595 分排名总榜第二，仅次于暂不可用的 Fable 5。

换句话说，在所有当前可用的模型中，GLM-5.2 是 " 现役最强 "。

Artificial Analysis 在其智能指数 v4.1 中把 GLM-5.2 评定为 51 分，直接放在了 GPT-5.5 与 Opus 4.8 之间。

而这是开源模型也第一次真正杀入这个区间。

以前是 " 开源追赶闭源 "，现在是 " 开源和闭源平起平坐 "。

而在更考验工程能力的 FrontierSWE 长程编程基准上，GLM-5.2 得分 74.4，跟 Opus 4.8 的 75.1 差距不到 1 个百分点，同时把 GPT-5.5 的 72.6 甩在了身后。

专测 Agent 训练能力的 PostTrainBench 上也是第二，仅次于 Opus 4.8。

换句话说，谷歌的 Gemini 这次确确实实被淘汰出了 " 御三家 "。现在是 Claude、OpenAI 和智谱 " 三足鼎立 "。

更有意思的是国外开发者社区的反馈。

X 上的一位博主 AICodeKing 在内测完直接评价：" 这个模型品位出色，代码始终非常干净。"

还有博主说，体感比 Codex 还好很多，有一种花 20 万买国产电车比 50 万的 BBA 还好的感觉。哈哈哈哈这比喻，绝了，国产电车 YYDS。

Mat Velloso 更是表示，这是他 " 第一个达到日常使用标准的开源模型 "。前微软总裁亲自盖章，含金量不用多说了吧。

所以，那些 " 国产大模型跟海外差距两三年 " 的说法，至少在 Coding 这件事上，可以收一收了。

从 " 答得好 " 到 " 干得久 "

不过话说回来，光看跑分其实有点没意思。

这两年 AI 圈一个很明显的趋势是：单次输出能力的差距正在被抹平，真正拉开模型档次的，是长时间干活能不能靠得住。

就像面试时人人都说 " 我能行 "，真到上班时才知道谁在摸鱼。

想象一下这个场景：让一个 AI 智能体去处理一个真实项目，需要数千次调用工具、读写数万行代码，并维持大量中间状态。

如果上下文窗口不足，它就得频繁压缩或丢弃早期信息，很多长任务失败并非因为模型不够聪明，而是它忘记了前序内容。

这就好比让一个人边干活边扔笔记，干到最后他肯定出岔子。

这不就是 " 金鱼系 AI" 吗？

GLM-5.2 这次最大的升级，就是把上下文窗口拉到了真正能用的 1M token。

这个数字本身可能没什么体感，我翻译一下：你基本可以把整个项目代码库、所有技术文档、需求说明、历史记录一次性全喂进去，它不光吃得下，还记得住。

给 AI 装了个 "1TB 的大脑内存 "，再也不怕它 " 断片 " 了。

实际效果怎么样？据智谱官方披露，有评测团队让 GLM-5.2 一次性承接一个完整的全栈应用开发任务。

从开发、联调、测试到打包上线，全程自主完成，最终交付了覆盖网页端、移动端与小程序的完整应用。整个任务累计处理超过 88 万 tokens，几乎用满了 1M 窗口。

过去这样体量的工程通常需要一支团队协作数周，而 GLM-5.2 在一个回合内完整保留了所有项目状态和约束，没有因为上下文不足而在执行中途 " 失忆 "。

短上下文模型在执行到后半段时，最初的需求细节和模块依赖关系早已被压缩丢弃，它能输出零散的代码片段，但整合不出可交付的完整产品。

就像拼图拼到一半，把图纸扔了，最后拼出个四不像。

这就是长上下文真正的意义，不是参数表上一个更大的数字，而是让 AI Coding 从 " 会写一段代码 " 进化到 " 能做一段工程 "。

简直就是质的飞跃！

不过也得说实话，1M 上下文不是万能的。

如果你只是改一个小函数、补一个简单脚本，把整个代码库塞进去反而是浪费，模型反而更容易过度设计。杀鸡用牛刀，牛刀表示很委屈。

真正适合的场景是整库理解、跨文件追 Bug、长期重构、复杂功能新增这类活。

所以智谱这次也很实在，在模型文档里专门讲了什么时候别用 1M。

简言之，大活用大窗，小活别硬塞。这一点还挺拉好感的。

" 越大 " 不等于越好

看到这里，大家心里肯定都有疑问了：

GLM-5.2 参数规模 744B，采用 MoE 架构，活跃参数约 40B。而 Opus 4.8 和 GPT-5.5 都是保守估计在 1-2 万亿参数区间的闭源模型。

一个只有对手几分之一规模的模型，凭什么能追到这么近？

因为更大的模型，不一定更聪明。

这就好比健身房里的肌肉男，不一定跑得过精瘦的马拉松选手。

Artificial Analysis 的 AA-Omniscience 基准测试了一个很有意思的指标叫做幻觉率，也就是模型在面对自己不确定的问题时，是诚实地说 " 不知道 "，还是自信地瞎编一个答案。

结果令人震惊，GPT-5.5 的幻觉率是 86%，Claude Opus 4.8 是 36%，Fable 5 是 48%，而 GLM-5.2 只有 28%。

换句话说，那些万亿参数的巨兽，在面对知识边界之外的问题时，有超过八成的时间在自信地胡说八道。

参数大，胆子更大，啥都敢编。

有人测试过，让 DeepSeek V4 Pro 和 GLM-5.2 分别设计一个 Python 的自定义异步事件循环策略，其中包含一个技术上的不可能任务，在单线程中执行多路复用 I/O 而从不暂停或利用系统轮询。

DeepSeek V4 Pro 花了 3 分 52 秒、7700 个推理 token，生成了一份结构精美但完全错误的代码。

而 GLM-5.2 只用了 12 秒、799 个推理 token，就直接指出这个需求在技术上是不可行的。

这好比装修时问师傅 " 能不能在不改动承重墙的前提下把客厅扩大一倍 "。小模型说 " 这做不到 "；大模型却说 " 没问题 "，然后画出一份看似完美却根本没法施工的设计图。

小模型是真 · 良心师傅，大模型是纯 · 忽悠大师。

由此可见，更大的参数量、更长的推理时间，并不必然带来更好的判断力。

在某些场景下，它们反而让模型更不愿意承认自己不知道。越大的模型，偶像包袱越重，打死不认错。

所以不要被参数大小和榜单分数迷惑，还得看干活踏不踏实。

找 AI 和对象一样，靠谱比花哨重要。

成本是一个被低估的变量

现在性能追上了，成本呢？

GLM-5.2 的输入 token 价格约 1.40 美元 / 百万 token，输出约 4.40 美元 / 百万 token。

Opus 4.8 的输入是 5 美元 / 百万 token，输出是 25 美元 / 百万 token，快速模式还要翻倍到 10 美元和 50 美元。

据此计算，GLM-5.2 比 Opus 4.8 便宜约 72% 至 82%。

但更值得关注的不是单价，而是另一个趋势。

摩根大通在研报中指出，相比 GLM-5.1，GLM-5.2 实际是涨价，因为性能提升主要源自强化学习和后训练优化，而非大规模增加参数量，成本基础保持稳定，定价却提高了。

基础对话、简单摘要、标准代码辅助这些已经商品化的能力，价格会越来越低；但能解锁新工作流、提升任务完成率的前沿能力，客户愿意为 " 完成任务 " 付费，而不是为 "token" 付费。

简单说：加量又加价，但用户还抢着买，这就是 " 物超所值 " 的魅力。

毕竟咱们用户不是傻子，知道什么模型能帮他们真正搞定工作。

写在最后

回到开头那两件事。

Fable 5 被下架，GLM-5.2 被开源。一个在筑墙，一个在铺路。

这并不是某个公司的胜利，也不是某个国家的胜利。这是两种路线的碰撞：一个是 " 我的智能你别碰 "，一个是 " 大家的智能随便用 "。

而智谱港股万亿市值的加冕，正是市场用真金白银为这条开放路线投下的信任票，宣告中国 AI 终于迎来了自己的 " 英伟达时刻 "。

GLM-5.2 当然不完美。它在最高难度的 SWE-Marathon 基准上得分 13.0，而 Opus 4.8 是 26.0。

它没有多模态能力，前端 UI 的审美和 Claude 还有差距。它的推理速度受限于算力基础设施，比 Opus 4.8 慢不少。

但这些差距正在肉眼可见地缩小。

年初的时候，马斯克在 X 上回复网友，预测中国模型可能在 2027 年一季度达到 Fable 级别，智谱 CEO 唐杰直接正面硬刚：" 不需要那么久。"

更重要的是，GLM-5.2 以 MIT 协议完全开源，模型权重可以自由下载、部署、商用。上线首日就完成了与华为昇腾、平头哥、摩尔线程、寒武纪等 8 大国产算力平台的全适配。

这意味着什么？

意味着任何开发者、任何团队、任何公司，都可以在自己的基础设施上跑这个模型，不用担心哪天收到一封信说 " 你不能用了 "。

告别 " 卡脖子 "，从此挺直腰杆写代码！

智谱在发布公告的结尾写了两句话：

"A step closer to frontier intelligence for everyone. The future of AI is open, and it is for the people."

向前沿智能再近一步，为每一个人。AI 的未来是开放的，它属于所有人。

放在 2026 年 6 月这个时间节点上，这两句话分量尤重。

我们正在见证 AI 编程的权力转移：从少数闭源巨头的手中，转移到每一个开发者的终端里。这场转移不会一蹴而就，但方向已清晰无比。

智能，不该是少数人的特权。

而这一次，中国开源模型不仅坐在了牌桌上，还亲手洗了牌。

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

对 Anthropic 贴脸开大：智谱 GLM-5.2 凭什么杀入世界编程三强？

宙世代

一起剪

相关阅读

SpaceX拟推出星链零售移动服务 与三大移动运营商正面竞争

Pocket 4系列抢不到 大疆回应：正推进生产 已溯源锁定黄牛

《人工智能 智能体互联》系列7项国家标准发布 支撑智能经济高质量发展

联想警告内存供应危机：价格上涨将成新常态，延续至2030年以后

豆包被迫收费养家，反而拉高了「DAA」的能见度

获矿业巨头集体押注、美国政府豪掷2.5亿美元 这家能源技术公司为何受欢迎？

AMD认错改正：锐龙9000处理器被砍的TSME内存功能回归

1496亿保证金到账！美光最新协议曝光：客户不买也得付

Anthropic进一步抢占OpenAI市场份额：付费收入和用户持续增长

长鑫科技挂牌上市在即，长江存储还会远吗？

苹果印度涨价幅度是美国三倍！iPad最高飙涨54%

告别穿戴高价门槛！苹果或将推出亲民定位智能戒指iRing

红魔游戏平板5 Pro行业首发双C口80W：支持旁路、反向充电

荣耀X80 Pro Max开售 搭载11000mAh电池 1699.15元起

消息称iPhone 18 Pro必定涨价 首款折叠机价格也高于预期

最新评论

钛媒体

热门推荐

企业资讯

SpaceX拟推出星链零售移动服务与三大移动运营商正面竞争

Pocket 4系列抢不到大疆回应：正推进生产已溯源锁定黄牛

《人工智能智能体互联》系列7项国家标准发布支撑智能经济高质量发展

获矿业巨头集体押注、美国政府豪掷2.5亿美元这家能源技术公司为何受欢迎？

荣耀X80 Pro Max开售搭载11000mAh电池 1699.15元起

消息称iPhone 18 Pro必定涨价首款折叠机价格也高于预期