关于ZAKER Skills 合作
钛媒体 2小时前

阿里云能否重写自己?

过去五个月,阿里云的 MaaS 收入增长了 15 倍,这只是阿里云重构自己的一个侧面。阿里云在峰会上宣布完成 " 芯片 - 云 - 模型 - 推理 " 全栈 Agent 化升级,同步推出全新 AI 产品官网 " 千问云 "、搭载自研 AI 芯片真武 M890 的超节点服务器,以及最新旗舰模型 Qwen3.7-Max。

用阿里云资深副总裁刘伟光的话说:" 我们正在建设中国最大的 AI 工厂。" 工厂这个比喻暗示了一套完整的生产逻辑,片是原材料,云是车间,模型是机器,推理平台是流水线,最终产出的商品是 Token。

而这次重构的本质,是把过去 17 年围绕 " 人使用云 " 搭建的整套体系,改造成 "Agent 消费 Token" 的新体系。

芯片这张牌,为什么现在打

阿里云过去很少在公开场合强调芯片。这次峰会,不仅发布了新一代训推一体 AI 芯片真武 M890,还破天荒地公布了未来两年的芯片路线图,真武 V900、真武 J900 两代产品逐年推进。

真武 M890 配备 144GB 显存,片间互联带宽 800GB/s,性能是上一代真武 810E 的 3 倍,搭配自研的 ICN Switch 互联芯片,128 张 AI 芯片可以组成一台机器,P2P 时延压到 150 纳秒以内

但参数之外,更关键的信息是规模,真武系列累计出货 56 万片,已经进入电信、一汽、浦发银行等 20 多个行业的 400 多家客户。

刘伟光反复用谷歌做类比,谷歌 TPU 和 Gemini 的深度绑定,让谷歌在自家框架里跑出了最优的性价比。阿里云当然想走同样的路,他把竞争逻辑归结为一句话:" 如果未来拼的是每一块芯片都能跑出比竞争对手更多的高质量 Token,那我们就胜利了。"

再加上倚天 CPU、磐脉智能网卡、镇岳存储主控芯片,平头哥的芯片版图已经从单点延伸到了算力、网络、存储的完整覆盖。当推理需求指数级膨胀的时候,只有把芯片握在自己手里,才能控制住每个 Token 的边际成本。

道理不复杂。模型公司可以比拼参数,云厂商最终比的是谁的 Token 更便宜、更稳定、更快。芯片是这场成本战的起点。

云本身也得重写

芯片解决的是 " 跑得动 " 的问题,但 Agent 对云的需求远不止算力。

传统云产品的交互逻辑是给人设计的,打开控制台,看菜单,配参数,点按钮。这套东西对 Agent 来说完全不可用,Agent 不看网页,不点按钮,它需要的是结构化的能力描述、标准化的调用协议和可预期的反馈。

阿里云 CTO 李飞飞用一组对比来说明问题:传统云的工作负载是稳态的,一台 ECS 开出来可能跑几个月甚至几年;但 Agent 的工作负载是 " 无规律弹性、短生命周期、瞬时起量即走 ",一个 Agent 执行完任务,沙箱就销毁了,下一个请求可能几毫秒后就来,也可能几小时后才来。

为此,阿里云做了三件事。

第一,把云产品 Skill 化、MCP 化和 CLI 化。简单说就是把每个云产品封装成 Agent 可以直接调用的标准化接口,像调函数一样调云。

第二,为 Agent 构建专属的运行环境——轻量沙箱、多 Agent 协同、跨任务记忆、数据流转通路。

第三,重建调度逻辑,从 " 资源调度 " 转向 " 任务调度 ",因为当海量 Agent 同时并发的时候,传统的资源编排方式扛不住。

刘伟光表示,一些 AI 应用上线后,会自动在后台开通云资源——虚拟机、数据库实例、沙箱环境,全程不需要人介入,一个客户一天内自动开通的资源量,相当于过去人工操作两周。

" 这已经等于说 Agent 在自己使用云了。" 刘伟光给出了一个内部测算的换算关系:Token 消耗可以按比例折算成 GPU 用量,而每一卡 GPU 的增长,大致带动一比一的 CPU 增长。也就是说,Token 收入的增长不是在蚕食传统云收入,而是在拉动它,前提是云平台能够接得住 Agent 的工作负载。

因此,阿里云不是在原来的体系上加一层 AI 能力,而是从交互方式、调度逻辑、计费模型到产品形态全部推翻重来。

模型不是用来聊天的

全栈重构的第三层是模型。Qwen3.7-Max 在 Arena 全球盲测总榜中排到了国产第一,超过 Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1,这次发布的重点,是阿里对模型能力方向的重新定义。

阿里巴巴通义大模型负责人周靖人表示," 过去我们追求模型 ' 说得好 ',现在要求模型 ' 做得到 '。"

以阿里云在芯片的实践来看,在训练时从未接触过的真武 M890 芯片上,Qwen3.7-Max 仅凭一份任务说明,从零开始自主工作了 35 个小时,独立完成了一个生产级 AI 计算内核的编写和调优,最终性能比官方版本提升了 10 倍,整个过程没有人类干预,没有中间指导。

这说明了模型在 Agent 场景下的核心能力,长程自主执行,接过一个任务,自己拆解、自己规划、自己写代码、自己调试,连续干 35 个小时不停。

为了支撑这种级别的推理需求,百炼平台也做了对应升级,并池调度提升 GPU 利用率,上下文缓存消除重复计算,吞吐弹性调度应对并发波峰。

在生态上,百炼保持开放接入,除了千问模型矩阵,还上线了智谱 GLM-5.1、MiniMax M2.7、月之暗面 Kimi K2.6 等第三方模型。

刘伟光提到," 客户在实际使用中不会只用一个模型,是多模型组合。我们提供组合,客户在平台上找到最适合自己的搭配。" 峰会现场,六家国内头部模型公司的高管集体站台,场面颇有 " 国内 AI 联盟 " 的意味。

近三个月内,千问旗舰模型连续迭代了 3.5、3.6、3.7 三个版本。这个发布节奏本身就在传递信号,模型能力的竞赛远没有结束,而阿里打算用自研芯片 + 自研模型的纵向整合来建立长期优势。

这场重构的真正赌注

回过头来看,阿里云这次全栈重构的底层逻辑简单纯粹,当 AI 收入的增长速度远超传统云业务,当 Token 有可能取代 ECS 成为最大的产品线,当 Agent 开始自动开通云资源而不再需要人类登录控制台,整套为人设计的技术体系就到了不得不改的时候。

但执行层面的难度是另一回事。刘伟光自己也承认,转型 " 说起来容易,做起来非常难 "。过去销售团队跟客户的 IT 部门打交道,现在做 MaaS 要跟业务部门甚至 CEO 对话,

" 你的对话能力、阅历,完全是另一个层次的要求 "。阿里云已经在大客户上设立了专职的 MaaS 销售,与传统 IaaS 销售分开考核、独立作战。

考核指标也在变,不再只看调用量,而是看 " 高质量 Token",解决实际问题的 Token,而不是灌水聊天的 Token。三个核心指标:付费客户数的日增长、核心业务系统接入模型的数量、Agent 自主完成任务闭环的效率。

这些组织和机制层面的调整,往往比技术发布更能说明一家公司的真实判断,阿里云要重建收入结构、客户关系和销售体系。刘伟光表示," 以前我们做云的时候,客户的 IT 预算是能算出来的,线下多少台服务器,搬上来大概多少钱,能看到题目。但做 MaaS,这个题的答案你是不知道的,进去之后可能超乎你的想象。"

题目看不到了,答案也不确定,但阿里云还是决定把整套体系拆开重写,因为唯一确定的是,AI 是比以往大上十倍甚至百倍的机会。

这大概就是这次峰会最值得关注的信息:不是哪款芯片多出算力,哪个模型排名第几,而是中国最大的云厂商,正在用一种接近创业公司的激进姿态,赌一个它认定会到来的未来。(本文作者 | 张帅,编辑 | 杨林)

相关标签

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容

企业资讯

查看更多内容