关于ZAKER Skills 合作
新浪财经 23分钟前

德国出局,Kimi 冠军预测提前折戟:AI 预测足球失败了吗?

来源:新浪财经

德国队被巴拉圭淘汰的那个凌晨,球迷圈和科技圈同时炸了。

球迷复盘的是比赛本身:巴拉圭怎么把节奏拖慢,德国为什么始终没能把优势转化成胜势,点球大战里谁先被压力击穿。科技圈翻出来的,则是另一张表——联想和咪咕 " 世界杯预测人机大战 " 的赛前预测。

德国对阵巴拉圭,Kimi 给出 3:1,DeepSeek 和通义千问预测 3:0,百度文心和阶跃星辰预测 2:0,腾讯混元、MiniMax、商汤小浣熊等模型也全部站在德国一边。

12 个大模型,零票投给巴拉圭。

结果是:1:1,德国点球出局。

一场 12:0 的共识性误判,在 AI 预测里并不常见。它真正引出的问题,也不只是 "Kimi 翻车了 ",而是:当 AI 面对足球这种高度不确定的系统时,它到底能看见什么,又会系统性看漏什么?

Kimi 赌得最重,也摔得最响

在所有参与预测的模型里,Kimi 是那个下注最重的样本。

世界杯开赛前,月之暗面高调宣布,Kimi 将公开预测 104 场赛事,并搭建一套 "Agent 集群 " 架构,调度 300 个子 Agent,覆盖战术、伤病、赛程、舆情、天气、心理、赔率等维度。

这不是随手一猜,而是一次产品级能力展示。

更关键的是,Kimi 明确看好德国。它的模型校准结果给出德国夺冠概率约 11.3%,高于部分博彩市场隐含概率,结论是德国 " 可能被低估 "。

这个判断现在看来格外刺眼。

不是因为它错了——预测本来就会错——而是因为它错的方式暴露了一个更深层的问题:当一个模型把能找到的数据都喂进去,把能想到的维度都加上,用复杂的工程架构去跑,最后依然稳稳站在错误的一边,问题就不只是数据量不够,也不只是模型不够复杂。

问题在于,这套方法论在面对足球淘汰赛时,天然存在结构性盲区。

我们不必替 Kimi 辩护,也不必急着嘲笑它。它恰恰是一个足够清晰的样本,让外界看见 AI 在处理高度不确定系统时的真实处境。

不只是 Kimi,全球 AI 都在世界杯上撞墙

把视野拉到全球,Kimi 的困境并不孤立。

英国《金融时报》旗下 FT Alphaville 做了一个 "AI Prediction World Cup" 项目,把 Gemini、Claude、ChatGPT 的多个版本,以及高盛量化模型放进同一个赛场。小组赛结束后的统计结果是:60 场比赛,528 个比分预测,精确命中的只有 38 个,准确率约 7.2%。

全球最强的那批模型,对着足球猜比分,十次里中不到一次。

高盛也不轻松。Business Insider 报道称,高盛在 48 支球队完成首场小组赛后更新模型,综合历史表现、进球能力、球员状态、心理因素、地理变量和 Elo 评分,给出西班牙约 20.4%、法国约 20%、阿根廷约 18% 的夺冠概率。

听起来很严谨,但淘汰赛刚开始不久,德国出局这样的冷门就已经提醒所有人:这些数字不是预言,只是概率在某一刻的快照。

媒体实验更热闹。有人让 ChatGPT、Gemini、Perplexity 各选冠军,有人把 AI 和人类专家拉到同一个擂台上比拼。结果并没有出现一个压倒性答案。AI 没有碾压人类,人类也没有彻底击败 AI。

这些实验拼在一起,勾勒出一个很清楚的图景:2026 年世界杯正在成为全球 AI 能力的一场大型野外测试。

它不是实验室里的对标,不是精心剪辑过的发布会 demo,而是每天都有新结果、每天都可能被打脸的真实考场。

12 个模型全选德国,这个整齐本身就是问题

比 "AI 猜错了 " 更值得追问的是:为什么 12 个模型会全部倒向同一边?

没有一个犹豫,没有一个投巴拉圭。

这种整齐,本身就是一个信号。

大模型的判断依赖训练数据、检索信息和公开叙事的分布。德国是一支在信息维度上被高度覆盖的球队:四座世界杯冠军,成熟的战术分析文献,海量球员数据,密集的赛前预测和媒体讨论。

这些信息量大、结构清晰、论据完整。模型跑下来,德国的胜利叙事天然更顺滑:阵容更强,经验更足,攻击线更锐利,每一条论据都能找到数据支撑。

但足球淘汰赛从来不是一场论据比拼。

巴拉圭不需要证明自己 " 整体实力 " 强于德国。它只需要在 120 分钟里让德国的优势兑现不了:放慢节奏,压缩空间,堵死肋部通道,把比赛变得黏稠、丑陋、乏味,然后拖进点球。

一旦站到罚球点前,赛前所有概率模型的解释力都会迅速下降。剩下的是门将的一次判断,射手起脚前零点几秒的心跳,以及全场压力在某一个瞬间的集中爆发。

这些变量——临场心理、门将手感、一次判罚尺度、一次折射角度——当然也可以被记录、被分析、被建模。但它们往往是低频、弱结构、强偶然的信号。AI 不是完全看不见,而是很难给出足够权重。

12 个 AI 全选德国,本质上是 " 强队叙事 " 在信息密度上压倒了 " 冷门路径 "。模型不是判断不出巴拉圭有机会,而是在概率排序中,把这种机会压到了几乎不值得认真讨论的位置。

这揭示了当前大模型处理不确定性时的一个共性特征:它们很擅长把主流共识讲得完整、漂亮、可信,却容易系统性低估非主流结果的发生路径。

当 12 个模型输出同一个答案,这件事本身就应该亮起警灯。

但目前看,还没有哪个模型真正把 " 高度共识 " 当成一种风险信号来处理。

在 AI 最不舒服的地方测试 AI

站远一步看,这轮世界杯预测热潮真正有价值的地方,不是谁多猜对了几场,而是这些实验的形态本身。

联想集团和咪咕搭建的 " 人机大战 ",做了一件在 AI 行业并不常见的事:把 12 个国产大模型放进同一张赛程表,赛前留下判断,赛后接受结果。对就是对,错就是错,没有事后修正,也没有重新解释的空间。

这件事放在 AI 行业语境里,意义会更清楚。

过去两年,AI 公司展示能力的主流方式,是在发布会上跑一个精选 demo,在榜单上刷一个高分,或者写一篇博客展示自己的 benchmark 排名。这些展示有一个共同特点:环境可控,结果可选。

但世界杯不同。

它结果客观,反馈即时,公众关注度极高,而且天然充满意外。每天都有比赛,每场比赛都可能出现冷门、红牌、伤病、点球、绝杀和强队崩盘。它恰好是测试 AI 判断力边界的极佳场景。

不是让 AI 做它最擅长的事,而是把它推到最不舒服的地方,看它如何暴露局限。

联想集团做这件事,也有自己的背景。作为 FIFA 官方技术合作伙伴,联想在赛事后台承担着技术基础设施和 AI 能力支持,包括 FIFA AI Pro 世界杯足球 AI 超级智能体、3D 比赛分析、数据洞察等面向球队和赛事运行的系统能力。这些技术真实存在,也真正影响比赛准备和赛事体验,但普通球迷很难直接感知。

" 人机大战 " 则把 AI 从后台搬到前台:球迷看得见,能参与,能吐槽,错了也跑不掉。

这正是它的公共价值所在。

德国出局这场比赛戏剧性地证明了,在复杂系统面前,测试 AI 不仅有意思,而且必要。只有在可控场景里,AI 永远光鲜;只有在世界杯这种不可控的真实赛场上,模型的边界才会被照亮。

AI 预测足球没有失败,但神话破了

回到最初的问题:AI 预测足球这件事,宣告失败了吗?

没有。

但它确实暴露了一个需要正视的认知落差。

当 Kimi 拿出 300 个 Agent 预测世界杯,当高盛把 Elo 评分和心理变量塞进模型,当 ChatGPT 被要求给出一个冠军名字时,公众接收到的是一个隐含承诺:AI 是一台更强大的预测机器,只要给它足够多的数据和足够好的算法,它就能看到人类看不到的未来。

德国出局撕开的,正是这层承诺。

AI 在组织信息、发现统计规律、提供结构化分析方面,确实强于绝大多数普通球迷。它可以快速梳理一支球队的历史表现、阵容变化、战术倾向和赔率变化,也可以把海量信息压缩成一个看似清晰的判断。

但足球比赛的决定性时刻,往往不发生在 " 规律 " 层面。

它发生在门将扑点球时身体倒向哪一侧,射手起脚前那一瞬间是否犹豫,裁判在第 88 分钟面对一次身体接触时如何吹罚,或者一支弱队能否把比赛拖进自己最熟悉的泥潭。

这些东西不是简单的数据不足问题,而是足球作为开放系统,本身就抗拒被完全预测。

承认这一点不是唱衰 AI,反而是对 AI 能力做出更诚实的定位。

AI 可以帮助我们更系统地分析一支球队,更全面地理解一场比赛的背景,更快地复盘一个冷门是如何发生的。但它给不了一个确定的答案,也不应该被包装成新的 " 电子章鱼保罗 "。

世界杯还在继续,联想和咪咕的 " 人机大战 " 也还在继续。接下来真正值得关注的,不只是模型下一场猜谁赢,而是它们会不会做赛后复盘:为什么错,错在哪个维度,下次如何调整?当 12 个 AI 再次全部同向时,有没有哪一个敢加一句——注意,共识本身就是风险。

如果这场实验能把德国出局这样的集体误判,变成一次认真的能力拆解,它就比任何 AI 发布会都更能让公众理解 AI 到底是什么。

世界杯不会因为 AI 加入就变成一道算术题。它依然会有冷门、乌龙、绝杀和强队崩盘。

AI 的价值不在于消灭这些意外——它消灭不了——而在于每一次意外发生之后,帮我们更清楚地理解意外为什么发生。

德国已经回家了。

但关于 AI 能力边界的讨论,才刚到最有意思的地方。

相关阅读

最新评论

没有更多评论了
新浪财经

新浪财经

新浪财经提供7*24小时财经资讯及全球金融市场报价;覆盖股票、债券、基金、期货、信托、理财、管理等多种面向个人和企业的服务。

订阅

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容

企业资讯

查看更多内容