关于ZAKER Skills 合作
钛媒体 25分钟前

AI 进入下半场:模型不再稀缺,真正稀缺的是算力、场景和信任

文 | 产业家

把研发、技术、治理、经济、科学、医学等放在一起看,2025 年的 AI 产业已经很难用 " 模型进步 " 四个字概括。

上半场比的是谁能训练出更强模型,下半场比的是谁能把模型变成稳定、可靠、可监管、可商业化、可持续的生产力。

过去一年,AI 行业最显著的变化,是判断 AI 进展的方式变了。过去一年,AI 行业最显著的变化,是判断 AI 进展的方式变了。

在更长一段时间里,外界习惯用参数规模、榜单排名、融资金额和产品发布节奏来理解 AI。但进入 2025 年后,这套叙事开始显得不够用了。模型还在变强,算力还在扩张,资本还在涌入,AI 也正在进入科学、医疗、教育、企业服务和自动驾驶等更深的产业场景。可与此同时,顶级模型之间的性能差距正在缩小,前沿系统的透明度正在下降,算力和芯片供应链越来越集中,治理、能源、就业和公平问题也开始从幕后走到台前。

这意味着,AI 竞争正在从单点技术竞赛,变成一场更复杂的系统竞争。真正值得追问的,已经不只是 " 谁的模型更强 ",而是 " 谁能把 AI 变成稳定、可信、可规模化的生产力 "。

也正是在这个节点,斯坦福大学以人为本人工智能研究院旗下 AI Index 项目发布了《2026 AI Index Report》。作为一份长期被全球政策界、学术界、产业界和媒体引用的年度报告,它并不只是一份技术榜单,而是试图用跨越研发、技术性能、负责任 AI、经济、科学、医学和教育等多个维度的数据,重新描绘 AI 产业的真实坐标。

这份报告释放出的信号很清晰:AI 的上半场,比的是模型能力和技术突破;AI 的下半场,比的将是基础设施、真实场景、商业效率和社会信任。换句话说,AI 已经不再只是技术公司的故事,而是正在成为一套重新分配产业资源、人才结构和全球竞争优势的新基础设施。

围绕这份报告,我们试图从七个维度梳理 2025 年以来 AI 产业正在发生的关键变化。一个越来越明确的判断是:当模型能力逐渐逼近,真正决定下一轮产业格局的,将是把技术落到产业深处的能力。

以下为报告转译后归纳总结:

要点概述:

1、AI 远未见顶,反而在加速狂飙,正以史无前例的广度野蛮渗透大众

2、中美 AI 模型的性能鸿沟,如今已被生生抹平

3、 既能斩获奥数金牌,又会在数秒报时上沦为白痴, AI 陷入极度失衡的 " 参差前沿 "

4、尽管机器人在受控环境中表现出色,但在大多数家务任务上仍束手无策

5、负责任的人工智能发展速度跟不上人工智能能力的提升,安全基准滞后,相关事件数量大幅上升

6、人工智能的普及速度正创下历史纪录,消费者正从这些通常免费使用的工具中获得可观价值

7、人工智能正在改变临床医疗,但相关严谨的证据依然有限

一、研发进入巨头时代:AI 越来越强,也越来越不透明

2025 年的 AI 研发呈现出一种鲜明的矛盾:一方面,支撑 AI 发展的资源还在增长,算力、开源项目、论文和专利都在继续扩张;另一方面,真正处在前沿位置的模型系统却越来越集中,透明度也在下降。

最直接的变化是,行业已经成为 AI 模型开发的绝对主角。2025 年,行业产出了超过 90% 的知名 AI 模型,学术机构在前沿模型中的角色被进一步挤压。原因并不复杂,训练一个顶级模型所需要的算力、数据、工程团队和资金投入,已经不是一般高校或研究机构能够独立承担的。AI 研发正在从过去相对开放的科研竞争,变成少数巨头之间的基础设施竞赛。

但问题也随之出现。越是性能最强的模型,往往越不透明。包括 OpenAI、Anthropic、Google 在内的多个资源消耗极高的系统,已经不再完整披露训练代码、参数数量、数据集规模和训练时长。这让外界很难判断模型能力到底来自算法突破、数据质量、后训练优化,还是单纯的算力堆叠。AI 越重要,社会越需要理解它;但 AI 越前沿,外部越难看清它。

与此同时,全球 AI 研发版图也在发生变化。中国在论文发表数量、引用量和专利授权方面位居首位,在被引次数最高的 100 篇 AI 论文中所占比例也持续上升。美国则在知名模型开发方面保持领先,2025 年研发出 59 个知名模型,中国为 35 个。换句话说,中国在研究产出和知识积累上更具规模优势,美国仍掌握更多前沿模型和高影响力专利。

算力是这场竞争最硬的底座。自 2022 年以来,全球 AI 计算能力每年约增长 3.3 倍,到 2025 年已达到 1710 万颗 H100 等效芯片的规模。英伟达占据总计算量的 60% 以上,谷歌和亚马逊供应了剩余的大部分份额,华为虽然占比仍小,但份额正在增长。算力扩张背后,是超大规模数据中心建设和前沿模型训练、推理需求的持续上升。

但越往底层看,风险越集中。美国拥有全球最多的数据中心,数量是其他任何国家的十倍以上;而台积电几乎制造了所有主流 AI 芯片,使全球 AI 硬件供应链高度依赖台湾的一家代工厂。AI 看似是云端软件革命,底层却是高度集中的半导体制造、能源供应和数据中心部署能力。

这种扩张还带来了环境代价。2025 年,Grok 4 的训练排放量预估达到 72816 吨二氧化碳当量;AI 数据中心电力容量升至 29.6 吉瓦,接近纽约州峰值用电量;仅 GPT-4o 的年度推理用水量,就可能超过 120 万人的饮用水需求。

AI 越强,越不只是技术问题,而是能源、供应链和公共资源问题。

二、模型能力追平之后,竞争从 " 跑分 " 转向 " 有用 "

AI 技术性能仍在快速提升,但 2025 年最重要的信号不是 " 模型又变强了 ",而是 " 强模型之间越来越难拉开差距 "。

在语言、推理、编码、数学等基准测试上,前沿模型的分数持续上升,甚至开始超过部分人类水平。前沿模型在 " 人类终极考试 " 这一高难度基准上一年内提升了 30 个百分点,许多原本被认为可以持续多年检验模型能力的测试,只用了几个月就被攻克。这说明 AI 进步速度已经超过评估体系的更新速度,旧的尺子正在变短。

当基准被快速刷穿,模型排名的意义就开始变化。到 2026 年 3 月,Anthropic、xAI、Google、OpenAI、阿里巴巴和深度求索均位于 Arena Elo 评分第一梯队,其中多家公司的模型分差控制在很小范围内。中美顶级模型之间的性能差距也基本弥合。2025 年初以来,中美模型多次在性能排行榜首位置互换,DeepSeek-R1 曾短暂与美国顶级模型持平,截至 2026 年 3 月,美国顶级模型仅以 2.7% 的优势领先。

这背后的产业含义很清楚:当 " 能力领先 " 不再足以形成压倒性差异,竞争压力就会转向成本、可靠性、领域性能和真实世界可用性。一个模型能不能便宜地调用,能不能稳定地完成任务,能不能在税务、法律、财务、客服、代码、医疗等专业场景中交付结果,将比单纯跑分更重要。

开源与闭源的格局也出现反复。2024 年,开源模型一度大幅缩小与闭源模型的差距,但到 2025 年,这一差距又重新扩大。截至 2026 年 3 月,头部闭源模型领先头部开源模型 3.3%,Arena 排行榜前十中有六个为闭源模型。这说明开源仍然是生态扩散和产业创新的重要力量,但在最前沿能力上,闭源巨头仍借助算力、数据和工程优势保持领先。

与此同时,AI 能力呈现出一种 " 锯齿状智能 "。它可以在国际数学奥林匹克竞赛中拿到金牌,却仍无法可靠识别模拟时钟。Gemini Deep Think 在 2025 年 IMO 中获得 35 分金牌成绩,但顶级模型在 ClockBench 上的模拟时钟识别正确率只有 50.6%,而人类为 90.1%。这提醒我们,AI 不是线性变聪明,而是在某些任务上突飞猛进,在另一些常识性任务上仍然脆弱。

更值得关注的是,AI 正在从数字任务走向物理世界。视频生成模型开始捕捉物体运动规律,不再只是生成逼真画面。谷歌 DeepMind 的 Veo 3 在超过 1.8 万个生成视频测试中,展现出模拟浮力、解决迷宫等能力,且无需专门训练。智能体也从回答问题进阶到完成任务,OSWorld 测试中的准确率从约 12% 提升至 66.3%,与人类差距缩小到 6 个百分点以内。

但进入物理世界并不容易。机器人在模拟环境中的操作成功率可达 89.4%,但在现实家庭任务中的成功率只有 12%。

相比之下,自动驾驶成为少数已经实现大规模部署的例外。Waymo 在美国五个城市每周行程约 45 万次,百度 Apollo Go 完成了 1100 万次全程无人驾驶行程。

AI 正在靠近物理世界,但离真正稳定地理解和改造物理世界,还有很长一段路。

三、负责任 AI 开始补课:治理追不上部署,风险已经进入现实

随着 AI 能力扩张,治理问题也被推到台前。2025 年的一个核心矛盾是,负责任 AI 的基础设施正在建设,但速度远远赶不上 AI 部署。

安全基准在增加,更多组织开始制定负责任 AI 政策,政府支持的 AI 安全机构也扩展到更多国家。但这些动作更多像是在补课,而不是主动引领。几乎所有领先模型开发者都会公布 MMLU、SWE-bench 等能力基准结果,但针对负责任 AI 基准测试的报告仍然很少。换句话说,企业很愿意展示模型有多强,却不太愿意完整披露模型有多安全、多公平、多透明。

风险已经在现实中累积。人工智能事件数据库显示,2025 年记录到 362 起 AI 事件,高于 2024 年的 233 起。模型幻觉仍是突出问题。

在一项准确率基准测试中,26 款主流模型的幻觉率在 22% 至 94% 之间。更微妙的是,模型难以区分 " 知识 " 和 " 信念 "。当虚假陈述被表述为他人观点时,模型还能较好处理;但当同一虚假陈述被表述为用户观点时,模型表现会大幅下降。这意味着模型不只是会编造信息,还可能受到提问方式和用户立场的影响。

企业层面的治理意识确实在提升。2025 年,AI 专属治理岗位增长 17%,尚未制定负责任 AI 政策的企业占比从 24% 降至 11%。

但落地仍然受制于现实条件,主要障碍包括知识缺口、预算限制和监管不确定性。很多企业不是不想治理,而是不知道怎么治理、没有足够资源治理,也不确定未来监管会如何变化。

监管框架也在转向 AI 专属体系。GDPR 仍是被提及最多的监管影响因素,但影响力占比有所下降。与此同时,ISO/IEC 42001 人工智能管理体系标准、NIST 人工智能风险管理框架等更具体的 AI 治理工具开始进入企业视野。监管正在从隐私和数据合规,进一步走向模型开发、部署、监控和风险管理。

但更深层的挑战是,AI 治理并不是单一指标最优化。安全、公平、隐私、可解释性之间可能存在冲突。近期研究发现,提升某一个负责任 AI 维度的训练技术,可能持续损害其他维度。例如,隐私增强可能削弱公平性,安全优化可能降低准确率。今天行业还缺少成熟框架来处理这些权衡。

透明度下降则让治理更难。基础模型透明度指数在 2023 年至 2024 年从 37 分升至 58 分,但 2025 年又降至 40 分。训练数据、计算资源和部署后影响的披露仍存在重大空白。

模型越被用于真实产业,外界越需要知道它的边界;但前沿企业越是竞争激烈,越倾向于隐藏关键细节。这种张力,将成为 AI 下一阶段最大的制度性难题之一。

四、钱还在涌入 AI,但红利分配并不均匀

技术竞争之外,AI 经济正在以前所未有的速度扩张。2025 年,全球企业 AI 投资增长了一倍多,私人投资增长最快,增速达到 127.5%,并占总投资的 60%。生成式 AI 是这轮增长的核心,投资增速超过 200%,几乎占据私人人工智能融资总额的一半。新获得融资的 AI 公司数量增长 71%,十亿美元级融资交易数量几乎翻番。

但资金并没有均匀流向全球。美国在 AI 私人投资领域继续保持领先,投入资金是中国的 23 倍。在生成式 AI 领域,美国投资规模大幅超过中国和欧洲总和。这种差距显示,美国仍掌握全球 AI 资本市场的主导权。不过,私人投资数据可能低估中国 AI 支出,因为中国政府引导基金在过去二十多年中已向 AI 企业投入大量资金。美国更强在市场资本和云基础设施,中国则更多体现为产业政策、制造能力和应用场景的组合投入。

AI 公司的收入增长速度也创下历史纪录。头部企业在短时间内实现了可观营收,但算力成本和基础设施支出同样飙升。云服务商加快资本开支,谷歌披露 2025 年年度资本支出超过 1500 亿美元。这说明 AI 商业化并不是轻资产神话,而是一场重资产竞赛。模型收入增长越快,背后的芯片、服务器、能源和数据中心投入也越大。

消费端已经证明 AI 具备真实价值。到 2026 年初,美国消费者从生成式 AI 中获得的年度消费者剩余估计达到 1720 亿美元,较一年前的 1120 亿美元明显增长,每位用户的中位数价值翻了三倍。更关键的是,这些工具大多仍免费或接近免费。AI 正在像搜索引擎和社交网络一样,先通过低成本、高频使用形成普及,再逐步重构商业模式。

企业采用率也在提升。2025 年,受访企业中 AI 采用率达到 88%,70% 的企业至少在一项业务职能中应用生成式 AI。中国和欧洲同比增幅位居前列。但智能体应用仍处于早期,在几乎所有业务职能中的部署数量仍为个位数。企业已经接受 AI 工具,但还没有大规模把 AI 交给自动化流程和关键业务闭环。

生产力提升也并非无处不在。AI 在结构化、可量化、产出易监控的工作中效果最明显,例如客户支持效率提升 14% 至 15%,软件开发效率提升 26%,营销成果提升 50%。但在需要深度推理、复杂判断和长期经验积累的任务中,提升幅度较小。AI 正在创造价值,但它首先改变的是流程清晰、数据可得、反馈明确的工作,而不是所有工作。

五、医疗 AI 走过炫技阶段,进入临床证据之战

医疗是 AI 最受期待、也最需要谨慎的领域。2025 年,医疗 AI 在分子生物学、临床推理、临床记录、诊断辅助和健康搜索等方向都有明显进展,但一个核心问题越来越突出:模型的高分表现,并不等于真实临床效果。

在分子生物学领域,小模型的表现开始挑战 " 大模型崇拜 "。MSAPairformer 只有 1.11 亿参数,却在 ProteinGym 基准测试中超过以往领先方法;GPN-Star 作为 2 亿参数的基因组学模型,性能超过一个 400 亿参数模型。这说明医疗和生命科学领域并不总是需要更大的通用模型,更小、更专业、更贴近领域数据的模型,可能反而更有效。

虚拟细胞模型成为新的前沿。Arc 研究所的 Evo 2、STATE 以及 DeepMind 的 AlphaGenome 都指向同一个目标:在不进行湿实验室实验的情况下,预测细胞对药物和基因扰动的反应。如果这一路径成熟,药物发现和生物实验的成本结构将被重写。但现阶段,这些系统仍然需要实验验证,AI 还不能替代真实生物学证据。

临床应用中,最先跑出来的不是最炫的诊断模型,而是能嵌入医生工作流的工具。2025 年,能够根据患者就诊自动生成临床笔记的 AI 工具得到广泛应用。在多家医疗机构中,医生表示写病历时间减少最高达 83%,职业倦怠感也显著下降,部分机构还实现了 112% 的投资回报率。

监管层面,AI 医疗设备数量快速增加。2025 年,美国 FDA 批准了 258 款 AI 医疗设备,但大多数通过无需开展新临床试验的渠道获批。绝大多数设备是通过设备改造途径进入市场,依赖现有安全性和有效性证据,而非新的随机试验。仅有 2.4% 的临床研究设备得到随机试验数据支持。这意味着医疗 AI 的商业化速度,已经明显快于临床证据积累速度。

诊断能力也在提升。微软 AI 诊断协调器搭配 OpenAI o3 模型,在复杂医学案例研究中获得 85.5% 的得分,而未借助辅助工具的医生仅为 20%。多智能体框架相比单智能体基准模型,诊断准确率提升 7% 至 60% 以上。但这类结果仍需要谨慎解读,因为测试往往基于医学文献中的疑难病例,并不完全等同于真实医院环境中的诊疗流程。

与此同时,患者正在更早接触 AI 健康信息。如今,84% 至 92% 的健康相关谷歌搜索结果顶部都会显示 AI 生成摘要。症状和常见健康问题最容易触发 AI 概述。这意味着很多患者在见医生之前,已经通过 AI 形成对疾病、治疗和风险的初步理解。问题在于,这些信息往往不经过正式医疗器械监管,却可能影响患者决策。

因此,医疗 AI 下一阶段的关键词不是 " 模型多强 ",而是证据、治理和伦理。它需要随机试验、真实世界数据、临床责任边界和更充分的伦理讨论。AI 对医疗的影响已经出现,但要真正规模化进入临床,不能只靠演示和榜单,必须经得起医学证据体系的检验。

写在最后:

把研发、技术、治理、经济、科学、医学和教育放在一起看,2025 年的 AI 产业已经很难用 " 模型进步 " 四个字概括。

它当然还在变强。模型能力快速提升,中美差距缩小,视频模型开始理解物理规律,智能体开始完成复杂任务,AI 也正在进入科学、医疗和教育等高价值场景。但与此同时,AI 也变得更昂贵、更集中、更不透明、更依赖基础设施,并带来更多治理、能源、就业和公平问题。

这正是 AI 进入下半场的标志。上半场比的是谁能训练出更强模型,下半场比的是谁能把模型变成稳定、可靠、可监管、可商业化、可持续的生产力。

真正的产业价值,不会只属于参数最多、榜单最高的模型,而会属于那些能在真实场景中完成闭环的系统。它要接得住企业流程,扛得住医疗证据,经得起安全审查,解释得清成本收益,也能在教育和劳动力市场中创造新的能力,而不是简单替代旧岗位。

AI 的故事还在加速,但它已经不再只是技术公司的故事。它是算力供应链的故事,是全球资本流动的故事,是科研范式变化的故事,是医生、教师、学生、工程师和普通用户共同参与的故事。

下一阶段,AI 最大的悬念不是它能不能继续变强,而是它能不能被社会真正吸收,成为一种可信、可控、可分配的生产力。谁能回答这个问题,谁才真正站在 AI 产业的下一轮中心。

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容