关于ZAKER Skills 合作
财联社-深度 12分钟前

AI 大模型跨越生产级“质变点”?

《科创板日报》7 月 5 日讯(记者 田野 王耐)2026 年 6 月的北京国家会议中心,火山引擎夏季 Force 原动力大会的会场里,一组数字被反复提及:豆包大模型日均 Token 调用量突破 180 万亿,过去一年增长超 10 倍;在中国公有云 MaaS 市场,火山引擎以 49.5% 的份额占据半壁江山,中国公有云上每两个 Token 消耗,就有一个来自火山引擎。

比天量数据更触动产业神经的,是火山引擎总裁谭待反复强调的判断——大模型已经跨越了 " 生产级质变点 "。从两年前人人谈论 Demo、比拼参数规模,到今天 AI 开始进入代码仓库、办公系统、工厂产线,中国大模型产业似乎正在完成一次关键的叙事切换:从 " 技术有没有 ",转向 " 价值能不能落地 "。

但争议也随之而来:所谓 " 生产级质变 ",究竟是技术实力的真实跃迁,还是厂商营销的新话术?跨过质变点之后,Token 生意的盈利性、企业落地的 ROI、组织适配的阵痛,这些更现实的问题,正摆在所有大模型厂商面前。

字节跳动 Force 原动力大会现场

" 质变点 ":一条被重新定义的行业及格线

在 AI 行业," 生产可用 " 从来都是模糊的标准。直到 2025 年 Anthropic 推出 Claude Opus 4.6,行业才第一次形成相对共识:当模型能独立完成端到端的工程任务、在复杂环境中自主纠错并交付可用产物,才算真正跨过了生产级的门槛。

"Opus 4.6 是全球第一个跨过生产力质变点的模型。我们推出的豆包 2.1 Pro,也是一个跨越了生产力质变点的模型。" 谭待在会后的媒体群访中直言。根据火山引擎公布的评测数据,豆包 2.1 Pro 在 Terminal Bench 2.1 终端编程评测中与 Claude Opus 4.7 基本持平;在科学计算代码评测 SciCode 中拿到 59.8 分,超过 Opus 4.7 与 GPT-5.5;在仓库级代码生成评测 NL2Repo-Bench 中得分 47.0,领先 GPT-5.5 和 Gemini 3.1 Pro。

在谭待的定义里,生产级质变在两个核心赛道有着清晰的标尺。

在 Coding 领域,这条线是从 " 代码片段补全 " 到 " 仓库级理解 + 端到端项目交付 + 自测闭环 "。

" 以前的模型写几行代码没问题,但给你一个完整的工程需求,要从零搭仓库、写模块、跑测试、修 bug,全程自己做完,以前做不到。现在可以了。" 他举了一个芯片设计的硬核案例:针对一个 16 × 16 PE 的 Tiny NPU Tile,豆包 2.1 Pro 连续运行近 18 个小时,经历 9 轮迭代,最终完成 6 个核心模块、1303 行 RTL 代码,跑通了仿真、测试、综合检查的完整工程流程,最终通过手写数字识别验证。

在 Agent 领域,质变的标准则是 " 动态路径规划 + 异常自纠 + 稳定交付 "。过去的智能体只能执行指令清晰的简单任务,一旦遇到接口报错、数据缺失、指令模糊的真实场景,就容易卡住或跑偏。

而跨过质变点的 Agent,可以自主拆解目标、动态调整路径、自行修复异常,最终交付可用结果。大会公布的数据显示,在覆盖 9 大行业、44 种职业的 GDPval 真实经济价值任务评测中,豆包 2.1 位列国内第一;在包含 36 个真实工具服务的 MCP-Atlas 评测中,全面超过 Opus 4.7 与 GPT-5.5。

视频生成赛道的变化更为直观。谭待分享了一个未在正式演讲中提及的细节:在 Seedance 2.0 发布之前,视频生成模型的周末调用量远高于工作日,本质是用户休闲娱乐的 " 玩具 ";而 Seedance 2.0 推出后,工作日的调用负载和使用次数反超周末—— " 这说明大家是在办公、在生产环境里用它,这就是生产力跨越最直接的证据。"

这并非火山引擎一家的独角戏。2026 年上半年,整个国产大模型行业都在向生产级门槛集体冲锋。智谱华章凭借 GLM 系列在代码与智能体上的持续迭代,在港股市场一度收获市值突破万亿港元的资本认可;DeepSeek、月之暗面等厂商也纷纷加码 Coding 能力与 Agent 架构,试图在企业级市场分一杯羹。

" 大家都在往同一个方向挤,就是从演示级走向生产级,这是行业从幼稚期走向成长期的标志。" 上海交通大学人工智能学院一位研究员向《科创板日报》记者表示。

潜入千行百业:Token 开始兑现真实价值

技术跨过门槛之后,真正的试金石是产业落地。火山引擎公布的数据显示,其 " 万亿 Token 俱乐部 " 成员已超过 200 家,半年内数量翻倍,覆盖互联网、制造、金融、汽车等多个行业。这意味着,越来越多的企业正在将 AI 从 " 试点项目 " 推向 " 规模化调用 "。

办公软件是最先感知到变化的场景之一。金山办公 WPS 依托灵犀 Harness 框架,接入豆包 2.1 Pro 后,在 PPT 生成、表格数据处理、文档编辑与内容整理等核心任务上形成了稳定可用的链路。

半导体与研发场景的价值更为硬核。作为全球领先的芯片 IP 厂商,安谋科技与火山引擎合作打造了存算分离的 EDA 混合云方案:核心 IP 和设计数据保留在本地,云上算力资源专线接入、统一调度,面对临时新增数万核的计算需求,天级即可完成业务上线。更重要的是,通过 Trae、ArkClaw、HiAgent 等智能体工具,芯片设计工程师的研发全流程效率得到显著提升——从跨系统取数、仿真流程自动化,到 CAD 运维辅助、UVM 测试用例生成,AI 开始深度介入芯片研发的核心环节。

游戏厂商沐瞳则在 3D 开发场景中验证了模型的工程价值。在 Unity 引擎的 3D 游戏开发任务里,豆包 2.1 Pro 在脚本逻辑类任务上表现突出,多项任务可以稳定拿到高分,单次能力上限甚至高于部分海外顶尖模型。

消费电子与制造业的落地同样在加速。OPPO、美的等头部企业已完成豆包大模型的测试与落地,覆盖代码生成、智能体应用等场景。在 OPPO,AI 辅助产品研发阶段的文档处理、代码调试,缩短了新品迭代周期;在美的,除了研发端的代码提效,Seedance 视频生成模型被用来制作多语言版本的产品说明、售后培训视频,大幅降低了海外市场的内容生产成本。

" 以前做一套多语言的产品演示视频,要找外包团队拍、剪、译,周期按周算,成本几十万。现在用 AI 生成,几个小时就能出多版本,成本降到原来的十分之一。" 美的数字化部门人士透露。

汽车、金融、教育、智能家居等赛道也在快速渗透。梅赛德斯 - 奔驰、东风汽车等汽车厂商纷纷与火山引擎达成深度合作,将豆包大模型落地车载智能座舱,实现更智能的人机交互;涂鸦智能则在 AIoT 生态中落地了 12000 余个 Agent,每天承载超 1.55 亿次 AI 交互。

" 我们观察到一个很明确的趋势:去年企业还在问‘ AI 能做什么’,今年大家都在问‘怎么把 AI 嵌到我的业务流程里’。" 谭待表示。为了适配这种变化,火山引擎专门组建了 FDE(Field Delivery Engineer)团队,深入各个行业,和标杆客户深度共创,把模型能力转化为可落地的业务方案。

繁荣之下的现实拷问:落地远未到坦途

天量的调用数据、遍地开花的落地案例,并不意味着大模型的商业化已经一片坦途。相反,跨过生产级质变点之后,更多深层矛盾开始浮出水面。

第一个争议,是 Token 生意本身的健康性。近期有行业人士提出," 单纯卖 Token 不是健康的生意 ",认为靠调用量堆砌的增长缺乏质量,企业付费意愿难以持续。

谭待对此并不认同。" 我觉得这是挺健康的生意。关键是不能只看单 Token 的价格,要看单 Token 创造的价值。" 他在采访中反复强调," 现在单 Token 的价格可能在上升,但单 Token 创造的价值上升得更快,所以性价比其实是提升的。"

但现实的隐忧依然存在。多位企业数字化负责人向《科创板日报》坦言,目前企业的大模型调用量里,测试、Demo、试点项目占了相当比例,真正进入核心生产系统、稳定产生业务价值的调用占比并不高。" 万亿 Token 俱乐部听着吓人,但很多是厂商给客户的免费测试额度,或者是试点项目的流量,真正的付费生产调用有多少,要打个问号。" 一位云计算行业分析师直言。

第二个难题,是 ROI 的模糊与落地的重人力。对很多传统企业而言,引入大模型容易,但算清楚投入产出比很难。Coding 场景的提效相对容易量化,但通用办公、业务运营、客户服务等场景,AI 带来的价值很难用数字精确衡量。

" 很多企业上 AI 是跟风,老板说要上就上了,但上了之后到底省了多少人、赚了多少钱,没人说得清。" 某制造企业数字化总监表示," 试点的时候都叫好,真要规模化推广、算 ROI 的时候,就卡壳了。"

这也是 FDE 模式的局限所在——深度共创的模式效果好,但重人力、难复制。要服务成千上万的中小企业,不可能每个客户都配专属团队陪跑。谭待也承认,行业还非常早期," 去年说跑了 500 米,今年跑了一公里多一点点 "。

第三个挑战,来自组织与管理的阵痛。当 Agent 开始进入企业执行任务,岗位边界模糊、员工焦虑、权责划分不清等问题随之而来。AI 到底是员工的工具,还是独立的 " 数字员工 "?谁来为 AI 的错误负责?怎么考核 AI 的绩效?

" 我们和很多企业交流,发现技术问题反而不是最大的障碍,组织和人的问题才是。" 谭待分享了他的观察。火山引擎也在尝试给出答案:在最新发布的 HiAgent 3.0 中,加入了数字员工全生命周期管理功能——数字员工上岗前要考试,上岗后有调度中枢协同,管理者可以从完成效率、执行质量、用户反馈、Token 成本等维度考核。" 表现好的多给一点 Token,表现不好的限制一些 Token,用类似绩效的方式管理。"

但这更像是过渡性的探索。要让企业真正适应人机协同的工作模式,完成组织流程的重构,显然不是靠一套软件系统就能解决的。

IDC 中国人工智能行业高级分析师王皓对《科创板日报》表示:" 生产级质变是技术层面的重要里程碑,但对产业落地来说,技术达标只是入场券。数据安全、合规适配、组织流程重构、人才培养,每一项都是比模型能力更难的关卡。现在行业刚跨过起步阶段,后面的路还很长。"

" 只有更好的技术和产品,才能服务好客户,帮助大家把企业经营好,共同登上高峰。" 在字节 Force 原动力大会上,极少露面的字节跳动 CEO 梁汝波在大会的视频致辞中说。

确实,在多位大模型业内人士看来,当参数竞赛的喧嚣散去,生产级质变的门槛是否被跨过,取决于最核心的命题:AI 究竟能为企业创造多少可衡量的价值。

相关阅读

最新评论

没有更多评论了

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容