文 | 硅基星芒
内有 DeepSeek 和小米疯狂降价,外有 Anthropic 和 Google 推陈出新,马斯克也坐不住了。
今天早上,马斯克在 xAI 平台上的一条高调转发,试图向 AI 开发者圈子抛出深水炸弹。

更令人眼前一亮的是它的最终账单,整个流程一气呵成,总成本只有 1.65 美元。马斯克也对此亲自点赞转发,并留下了一句极具煽动性的评价:"Good value for money(物超所值)"。
在 GPT-5.5 定价依然高高在上、Claude Opus 4.8 算力税沉重的今天,马斯克旗下 Grok Build 0.1 这波操作,很难不让人联想到,它试图在硅谷复刻中国大模型的路线:用极致的价格,重新定义 AI Coding 的性价比。
不过,开发者圈子里有一句话," 老马的嘴,骗人的鬼 ",马斯克真的搞出了一个 " 美国编程版 DeepSeek",而不是所谓的 " 美国大豆包 " 吗?先别急着喝彩。脱下实测的经验外衣,结合全球 AI 竞争的权力版图与资深工程师的源码探究,其实这是一场精妙的自救与豪赌。
自救计划
要看懂 Grok Build 0.1 的定位,绝对不能只看老马一天发无数条的推文,而是要看 xAI 旗下 Grok 系列模型的生存窘境。
前段时间 Google 发布 Gemini 3.5 Flash 后反响极差,被不少人戏称为 " 美国大豆包 "。但在我看来,这个名号放到 Grok 头上才更贴切。毕竟,在目前的全球大模型第一梯队中,xAI 的处境其实非常尴尬。

抛开 OpenAI、Anthropic 和 Google 这全球顶级、遥遥领先的 " 御三家 " 不谈,阿里的 Qwen3.7 Max、月之暗面的 Kimi K2.6 以及小米刚刚降价的 MiMo-V2.5-Pro,都已经在多项基准测试中对 Grok 形成了全面压制。
而在 Coding 和 Agentic 这两个更加具体的领域,xAI 的表现更是不尽如人意,早已被甩出前十,在开发者圈子中无人问津。Grok 现在唯一的舞台,是在 x 平台上凭借多模态能力和宽松的内容限制大放光彩," 美国大豆包 " 名不虚传。
在这种 " 全能拼不过、生态被蚕食 " 的情况下,前不久在与 OpenAI 的官司中败诉的马斯克如坐针毡,毅然决然地选择了一套非常聪明的战术:抄既是 xAI 合作伙伴、也是 OpenAI 最大对手的 Anthropic 的作业,走垂直编程专精的 " 偏科生 " 路线。

马斯克深知,全球的开发者都有一个共同的特点,那就是对价格和性能极度敏感,他试图用 " 试错自由 " 来重新夺回原本属于自己的生态位。即使一次生成的代码跑不通,花几美分重跑一遍也不心疼。因此,马斯克只能用这种 " 廉价劳动力 " 的模式,试图从编程这个垂直切口,强行撬开 OpenAI 的护城河。
物超所值
客观来看,Kilo Code 这波实测确实给老马和 Grok 争了口气。它展现出来的不仅是代码生成能力,还有惊人的 Agentic 工作流逻辑。这种强大逻辑能力的体现,甚至让一些资深的后端工程师感受到了一丝职业危机。
看完 Kilo Code 发布的技术报告,Grok Build 0.1 的闪光点主要有两个:
一是架构师级的规划深度。
这款新模型的思路与人类架构师的想法几乎完全一致,拒绝盲目动手,而是先问 " 为什么 "。
" 用 TypeScript、Bun 和 SQLite 建一个微服务 ",这已经算是懂技术的产品经理给出的指令了。但光是看到这条指令,无数程序员可能已经开始头疼:任务十分开放、没有严格的架构规划、也没有具体的需求。
然而,Grok 这次表现得像是个拥有多年从业经验的架构师。它没有直接输出代码,而是先执行了联网搜索,深度调研了 Stripe 和 GitHub 上的行业标准,并向测试者抛出了多个关键的架构反问:

这种 " 先想再做 " 的思路,是人类工程师必备的职业素养,也是 Grok 避开早期 AI 编程最容易出现的 " 答非所问 " 问题的关键技术。
二是极度舒适的自主纠错能力。
到了编码阶段,Grok 能够以 120 tokens/ 秒的流畅速度输出代码。
不仅如此,在配置环境时,它还遇到了 Bun 的 ABI 不匹配以及 Zod 的类型错误,这在传统的 Vibe Coding 过程中显然需要人工进行干预。但 Grok 在没有任何提示的情况下,自主诊断报错、重新调整导入路径、修改配置文件,最终一气呵成搞定了 26 个工程文件。

致命短板
正当人们准备为几美元即可兑换的生产力而欢呼时,社交平台和技术社区的清醒声音给了老马一记重锤。
显然,马斯克试图对 AI Coding 的性价比进行重新定义。
Grok Build 0.1 的低价,是建立在对比昂贵的 GPT-5.5 和 Opus 4.8 基础上的。但如果把目光放到全球,这波低价营销的局限性就凸显出来了。就在 Kilo Code 发布技术报告的评论区里,网友直接开炮:

技术社区 Linux.do 同样反响不佳,该模型被评价为 " 干活不主动、理解能力差 "。
这就揭露了一个尴尬的现实:马斯克自以为的 " 白菜价 ",在国产大模型早已打到地板的价格体系面前,并不具备绝对的代差优势。
而我始终坚持的观点也未曾动摇:当下 AI 竞争的格局,要么做到性能领先,要么做到极致性价比,位于中间地带的模型,并不具备多少实际应用价值。
更致命的短板在于上下文窗口,只有 256K。
在长上下文模型层出不穷、1M 窗口已经成为复杂任务标配的今天,256K 显得捉襟见肘,甚至有些可笑。这就意味着,Grok 在 " 从零构建项目 " 时表现出色,但一旦进入真实的、已经拥有几十万行代码的项目时,它压根无法装入足够的历史上下文,最后的结果自然是幻觉频出、指令遵循能力差和主动性差。
与此同时,马斯克这次发布模型依然采取了 " 拒绝跑分、纯靠晒单 " 的营销策略。然而,一年前的编程模型 Grok Code Fast 1 就频繁被诟病,尽管人们现在对第三方评测机构和基准测试的结果的信任与日俱减,但就像此前说的,基准测试是 " 及格线 " 而不是 " 优秀线 ",缺乏第三方测试支撑的发布,难免被质疑存在幸存者偏差的过度包装。
源码探究
同样是在 Kilo Code 的评论区下,一条评论呼吁所有人保持警醒:

如果深入探究 Grok Build 0.1 仅仅花费几美元生成的源码,结果就不只是一次生产力的飞跃,还有一次安全漏洞的博弈。
尽管 Grok 写出的代码工程结构非常规范,甚至贴心地配置了 SQLite 的并发 WAL 模式和非破坏性重试机制,但专业的代码审查还是挑出了几个致命的 bug:
1. 在 Webhook 最关键的签名比对环节,Grok 默认使用了普通的字符串检查,而非抗时序攻击的 crypto.timingSafeEqual。这在黑客眼里无异于敞开的大门。
2.Grok 在查询接口时,无意中泄露了本应该加密保存的密钥字段(encryptedSecret)。尽管加了密,但在返回 API 时,这种做法还是完全违背了它自己在 README 里制定的安全规范。
3.Grok 一共编写了 14 个基础单元测试,但在自动暂停机制、重试循环的集成测试等一系列复杂的业务逻辑上并未给出有效的方案,属于避重就轻。
这是对全球 AI 开发者和开发企业敲响的一次极有价值的警钟,它印证了两件事:
第一,AI 不会消灭程序员,只会把程序员逼成更严苛的 " 技术审查员 "。如果开发者真的觉得只要靠文字描述就能写出千万级的架构,那么使用 Grok 几美元节省下来的成本,一定会转变为成千上万倍安全补丁和系统重构的代价。
第二,零门槛编程不等于人人都能当程序员,不等于能开发出可运行的应用,更不等于能实现商业价值。假设有一个完全不懂程序开发,只是热衷于 AI Coding 这个词的外行人,那么对于上述 Grok 的漏洞,恐怕无法理解其中的任意一点,更别提修复和完善。而这些 bug,恰恰是实现商业价值的过程中必须杜绝的。
结语
总体来说,Grok Build 0.1 的发布以及 Kilo Code 的实测对 xAI 来说是一次极其成功的宣传。
它精准命中了开发者对 " 便宜、好用、懂工程架构、能自主 Debug" 这种看起来不切实际的幻想,并证明了马斯克在垂直编程领域确实拥有一战之力。对于需要快速产出原型、验证逻辑的国外开发者而言,它就是目前最趁手的工具。
但要是想让它成为 " 美国编程版 DeepSeek",或是想让它重塑全球编程模型排行榜,还有很长的距离。
在全球 AI 竞争进入深水区的下半场,单纯的价格战并不能永久地维护住护城河。能否处理超长上下文、能否在复杂的遗留代码中精准重构、能否在生成代码的同时严守安全底线,才是 xAI 能否逆袭 " 御三家 " 的关键。
马斯克这一枪打响了,不过子弹还得再飞一会。
至少现在,即便只花了几美元就解决了需求,用户也得老老实实坐回电脑前,仔细看看每一行代码是否会被黑客们钻了空子。