来源:新浪财经
德国队被巴拉圭淘汰的那个凌晨,球迷圈和科技圈同时炸了。
球迷复盘的是比赛本身:巴拉圭怎么把节奏拖慢,德国为什么始终没能把优势转化成胜势,点球大战里谁先被压力击穿。科技圈翻出来的,则是另一张表——联想和咪咕 " 世界杯预测人机大战 " 的赛前预测。
德国对阵巴拉圭,Kimi 给出 3:1,DeepSeek 和通义千问预测 3:0,百度文心和阶跃星辰预测 2:0,腾讯混元、MiniMax、商汤小浣熊等模型也全部站在德国一边。
12 个大模型,零票投给巴拉圭。
结果是:1:1,德国点球出局。
一场 12:0 的共识性误判,在 AI 预测里并不常见。它真正引出的问题,也不只是 "Kimi 翻车了 ",而是:当 AI 面对足球这种高度不确定的系统时,它到底能看见什么,又会系统性看漏什么?
Kimi 赌得最重,也摔得最响
在所有参与预测的模型里,Kimi 是那个下注最重的样本。
世界杯开赛前,月之暗面高调宣布,Kimi 将公开预测 104 场赛事,并搭建一套 "Agent 集群 " 架构,调度 300 个子 Agent,覆盖战术、伤病、赛程、舆情、天气、心理、赔率等维度。
这不是随手一猜,而是一次产品级能力展示。
更关键的是,Kimi 明确看好德国。它的模型校准结果给出德国夺冠概率约 11.3%,高于部分博彩市场隐含概率,结论是德国 " 可能被低估 "。
这个判断现在看来格外刺眼。
不是因为它错了——预测本来就会错——而是因为它错的方式暴露了一个更深层的问题:当一个模型把能找到的数据都喂进去,把能想到的维度都加上,用复杂的工程架构去跑,最后依然稳稳站在错误的一边,问题就不只是数据量不够,也不只是模型不够复杂。
问题在于,这套方法论在面对足球淘汰赛时,天然存在结构性盲区。
我们不必替 Kimi 辩护,也不必急着嘲笑它。它恰恰是一个足够清晰的样本,让外界看见 AI 在处理高度不确定系统时的真实处境。
不只是 Kimi,全球 AI 都在世界杯上撞墙
把视野拉到全球,Kimi 的困境并不孤立。
英国《金融时报》旗下 FT Alphaville 做了一个 "AI Prediction World Cup" 项目,把 Gemini、Claude、ChatGPT 的多个版本,以及高盛量化模型放进同一个赛场。小组赛结束后的统计结果是:60 场比赛,528 个比分预测,精确命中的只有 38 个,准确率约 7.2%。
全球最强的那批模型,对着足球猜比分,十次里中不到一次。
高盛也不轻松。Business Insider 报道称,高盛在 48 支球队完成首场小组赛后更新模型,综合历史表现、进球能力、球员状态、心理因素、地理变量和 Elo 评分,给出西班牙约 20.4%、法国约 20%、阿根廷约 18% 的夺冠概率。
听起来很严谨,但淘汰赛刚开始不久,德国出局这样的冷门就已经提醒所有人:这些数字不是预言,只是概率在某一刻的快照。
媒体实验更热闹。有人让 ChatGPT、Gemini、Perplexity 各选冠军,有人把 AI 和人类专家拉到同一个擂台上比拼。结果并没有出现一个压倒性答案。AI 没有碾压人类,人类也没有彻底击败 AI。
这些实验拼在一起,勾勒出一个很清楚的图景:2026 年世界杯正在成为全球 AI 能力的一场大型野外测试。
它不是实验室里的对标,不是精心剪辑过的发布会 demo,而是每天都有新结果、每天都可能被打脸的真实考场。
12 个模型全选德国,这个整齐本身就是问题
比 "AI 猜错了 " 更值得追问的是:为什么 12 个模型会全部倒向同一边?
没有一个犹豫,没有一个投巴拉圭。
这种整齐,本身就是一个信号。
大模型的判断依赖训练数据、检索信息和公开叙事的分布。德国是一支在信息维度上被高度覆盖的球队:四座世界杯冠军,成熟的战术分析文献,海量球员数据,密集的赛前预测和媒体讨论。
这些信息量大、结构清晰、论据完整。模型跑下来,德国的胜利叙事天然更顺滑:阵容更强,经验更足,攻击线更锐利,每一条论据都能找到数据支撑。
但足球淘汰赛从来不是一场论据比拼。
巴拉圭不需要证明自己 " 整体实力 " 强于德国。它只需要在 120 分钟里让德国的优势兑现不了:放慢节奏,压缩空间,堵死肋部通道,把比赛变得黏稠、丑陋、乏味,然后拖进点球。
一旦站到罚球点前,赛前所有概率模型的解释力都会迅速下降。剩下的是门将的一次判断,射手起脚前零点几秒的心跳,以及全场压力在某一个瞬间的集中爆发。
这些变量——临场心理、门将手感、一次判罚尺度、一次折射角度——当然也可以被记录、被分析、被建模。但它们往往是低频、弱结构、强偶然的信号。AI 不是完全看不见,而是很难给出足够权重。
12 个 AI 全选德国,本质上是 " 强队叙事 " 在信息密度上压倒了 " 冷门路径 "。模型不是判断不出巴拉圭有机会,而是在概率排序中,把这种机会压到了几乎不值得认真讨论的位置。
这揭示了当前大模型处理不确定性时的一个共性特征:它们很擅长把主流共识讲得完整、漂亮、可信,却容易系统性低估非主流结果的发生路径。
当 12 个模型输出同一个答案,这件事本身就应该亮起警灯。
但目前看,还没有哪个模型真正把 " 高度共识 " 当成一种风险信号来处理。
在 AI 最不舒服的地方测试 AI
站远一步看,这轮世界杯预测热潮真正有价值的地方,不是谁多猜对了几场,而是这些实验的形态本身。
联想集团和咪咕搭建的 " 人机大战 ",做了一件在 AI 行业并不常见的事:把 12 个国产大模型放进同一张赛程表,赛前留下判断,赛后接受结果。对就是对,错就是错,没有事后修正,也没有重新解释的空间。
这件事放在 AI 行业语境里,意义会更清楚。
过去两年,AI 公司展示能力的主流方式,是在发布会上跑一个精选 demo,在榜单上刷一个高分,或者写一篇博客展示自己的 benchmark 排名。这些展示有一个共同特点:环境可控,结果可选。
但世界杯不同。
它结果客观,反馈即时,公众关注度极高,而且天然充满意外。每天都有比赛,每场比赛都可能出现冷门、红牌、伤病、点球、绝杀和强队崩盘。它恰好是测试 AI 判断力边界的极佳场景。
不是让 AI 做它最擅长的事,而是把它推到最不舒服的地方,看它如何暴露局限。
联想集团做这件事,也有自己的背景。作为 FIFA 官方技术合作伙伴,联想在赛事后台承担着技术基础设施和 AI 能力支持,包括 FIFA AI Pro 世界杯足球 AI 超级智能体、3D 比赛分析、数据洞察等面向球队和赛事运行的系统能力。这些技术真实存在,也真正影响比赛准备和赛事体验,但普通球迷很难直接感知。
" 人机大战 " 则把 AI 从后台搬到前台:球迷看得见,能参与,能吐槽,错了也跑不掉。
这正是它的公共价值所在。
德国出局这场比赛戏剧性地证明了,在复杂系统面前,测试 AI 不仅有意思,而且必要。只有在可控场景里,AI 永远光鲜;只有在世界杯这种不可控的真实赛场上,模型的边界才会被照亮。
AI 预测足球没有失败,但神话破了
回到最初的问题:AI 预测足球这件事,宣告失败了吗?
没有。
但它确实暴露了一个需要正视的认知落差。
当 Kimi 拿出 300 个 Agent 预测世界杯,当高盛把 Elo 评分和心理变量塞进模型,当 ChatGPT 被要求给出一个冠军名字时,公众接收到的是一个隐含承诺:AI 是一台更强大的预测机器,只要给它足够多的数据和足够好的算法,它就能看到人类看不到的未来。
德国出局撕开的,正是这层承诺。
AI 在组织信息、发现统计规律、提供结构化分析方面,确实强于绝大多数普通球迷。它可以快速梳理一支球队的历史表现、阵容变化、战术倾向和赔率变化,也可以把海量信息压缩成一个看似清晰的判断。
但足球比赛的决定性时刻,往往不发生在 " 规律 " 层面。
它发生在门将扑点球时身体倒向哪一侧,射手起脚前那一瞬间是否犹豫,裁判在第 88 分钟面对一次身体接触时如何吹罚,或者一支弱队能否把比赛拖进自己最熟悉的泥潭。
这些东西不是简单的数据不足问题,而是足球作为开放系统,本身就抗拒被完全预测。
承认这一点不是唱衰 AI,反而是对 AI 能力做出更诚实的定位。
AI 可以帮助我们更系统地分析一支球队,更全面地理解一场比赛的背景,更快地复盘一个冷门是如何发生的。但它给不了一个确定的答案,也不应该被包装成新的 " 电子章鱼保罗 "。
世界杯还在继续,联想和咪咕的 " 人机大战 " 也还在继续。接下来真正值得关注的,不只是模型下一场猜谁赢,而是它们会不会做赛后复盘:为什么错,错在哪个维度,下次如何调整?当 12 个 AI 再次全部同向时,有没有哪一个敢加一句——注意,共识本身就是风险。
如果这场实验能把德国出局这样的集体误判,变成一次认真的能力拆解,它就比任何 AI 发布会都更能让公众理解 AI 到底是什么。
世界杯不会因为 AI 加入就变成一道算术题。它依然会有冷门、乌龙、绝杀和强队崩盘。
AI 的价值不在于消灭这些意外——它消灭不了——而在于每一次意外发生之后,帮我们更清楚地理解意外为什么发生。
德国已经回家了。
但关于 AI 能力边界的讨论,才刚到最有意思的地方。