关于ZAKER Skills 合作
新浪财经 31分钟前

12 大模型同台、超 1800 万人参与,联想在世界杯为中国 AI 搭建“裁判台”

来源:市场资讯

当四年一度的绿茵狂欢遇上席卷全球的 AI 浪潮,一场关于算法与经验、理性与直觉的终极博弈正在真实上演。

6 月 24 日,由联想集团与咪咕联手打造的国内首档 AI 大模型深度参与的世界杯直播真人秀《人机大战:谁是世界杯预言家》将正式在咪咕视频开播。苏醒、詹俊、韩乔生、阎鹤祥、孙继海、张踩铃等嘉宾将与 12 大 AI 模型同台比拼,预测世界杯的胜负与比分。

而在节目开播之前,一场真刀真枪 " 打 " 了 13 天、覆盖全部世界杯赛程、吸引超千万人参与的 " 世界杯预测人机大战 ",已经率先打响。

自世界杯揭幕以来,由联想旗下天禧 AI 超级智能体担任召集者,汇聚 DeepSeek、Kimi、百度文心、千问、中移九天等 11 大 AI 模型,组局 12 大 "AI 战队 ",围绕本届世界杯全部 104 场比赛逐场亮出预测,并与人类球迷展开实时较量。

这不仅是全球首个 AI 团体与全民同场预测的世界杯人机对决,也成为中国大模型第一次在全球顶级赛事中接受真实世界检验。对于所有参赛模型而言,这是一场不能提前 " 对答案 " 的公开考试。

一场逆袭:AI 如何在 13 天里反超人类

开赛之初,AI 并没有赢得掌声。

第一轮小组赛,冷门频出。最典型的案例发生在西班牙与佛得角之间。赛前,12 大 AI 没有一家选择平局,11 家预测西班牙大胜,1 家反向押注佛得角,但所有模型都默认了一件事——这场比赛一定会有进球,且分出胜负。

然而当终场哨声响起,比分却是 0:0。

同一天,伊朗对阵新西兰一役再次让 AI 阵营集体失准。这场赛前看似悬念不大的比赛,让 12 家模型赛前给出了难得一见的满票共识——全部预测伊朗取胜。但最终双方以 2:2 握手言和,12 大 AI 无一命中。

那一天的 4 场比赛中,12 大 AI 共做出 48 次胜平负判断,只命中了 1 次。截至当时,AI 预测准确率仅为 35%,大幅落后于人类阵营。

然而,拐点很快出现。随着第二轮小组赛进入 " 强队收割 " 模式,美国 2:0 澳大利亚、荷兰 5:1 瑞典等预期内的结果接连兑现,AI 阵营的预测准确率开始显著拉升。中移九天、百度文心、DeepSeek、千问、联想天禧 AI 等模型出现连续多场命中的表现,整体命中率快速攀升。截至 6 月 24 日,12 大 "AI 战队 " 的整体准确率已攀升至 57%,反超人类玩家 52.5% 的整体准确率水平。

4.5 个百分点的差距看似不大,但从近日的胜率走势来看,两条曲线的方向已经清晰分开—— AI 的线在持续爬升,人类的线基本走平。

模型排名方面,综合 46 场赛事的预测数据,中移九天以 63% 的预测胜率暂居榜单第一;联想天禧 AI、千问、腾讯混元等多款模型以 60.9% 的胜率并列第二梯队。

更重要的是,这份排名,没有任何一家 AI 公司有机会提前知晓,也没有任何人有能力提前设计。世界杯的赛果由场上 22 名球员决定,而不是由模型决定。正因如此,这些数据才拥有特殊价值。

一把标尺:为什么这批数据的意义不一样

理解这场实验的价值,需要先理解中国 AI 行业过去几年是如何验证自身能力的。

长期以来,大模型的能力评价主要依靠三种方式:基准测试、产品数据和事件营销,但三者都存在天然局限性。基准测试发生在实验室环境里,与真实世界的复杂性相距甚远;产品数据掌握在各家公司自己手中,难以横向比较;事件营销能够制造声量,但声量不等于能力。这三种路径共同的问题是:结论的产生方式可以被设计,而被设计的结论,其公信力天然存在折扣。

世界杯则提供了一种截然不同的验证框架。

每一场比赛开打前,12 大 AI 模型必须在同一套规则下亮出自己的判断,赛果由 22 个球员在场上决定,不受任何 AI 公司的控制。判断一旦公开,不能事后修改;赛果一旦落地,即时验证。这个机制持续覆盖 104 场比赛,产生的是一个在真实世界中被逐场检验的能力样本,而不是实验室里的推算数字。

13 天积累下来的数据,已经呈现出清晰的规律:AI 擅长秩序题,不擅长陷阱题。当强弱关系清晰、比赛按照实力展开时,AI 的命中概率极高;当足球进入平局、冷门、临场波动和情绪变量主导的时刻,AI 会迅速失去把握。这个结论不是任何一家参赛模型说的,是 104 场比赛的赛果一场一场呈现出来的。

对于中国 AI 行业而言,这批数据的含金量在于它的 " 不可篡改性 " ——它是在全民围观、实时验证、结果无法回溯修改的条件下产生的。这在国内 AI 能力验证的历史上,几乎是第一次。

而让数据更有意义的,是超千万人的参与基数。人类预测阵营的 52.5%,构成了一个真实的、有规模支撑的比较基准线。AI 赢的,不是一个虚设的假想对手,而是超过千万量级的真实判断样本。

一张入场券:为什么联想能搭这个台

这个验证框架之所以存在,有一个前提条件:必须有人能拿到世界杯这张入场券。

联想集团是 2026 年 FIFA 世界杯官方技术合作伙伴,正以端到端全域 AI 技术深度参与本届世界杯核心技术体系建设。这个身份不是营销标签,而是真实的深度技术嵌入。

在这届世界杯上,联想部署了 FIFA AI Pro 世界杯足球 AI 超级智能体,为全部 48 支参赛球队提供战术分析支持;联想 3D 数字人可视化方案将越位判定精度提升至 " 头皮级 ",为全部 1263 名球员建立数字分身,从而帮助世界杯半自动越位判罚的可视化呈现;联想历时不到一年时间自研打造的裁判视角 AI 视频增强系统,更是首次将裁判第一视角稳定接入全球直播,将画面清晰地呈现在全球观众眼前。

此外,联想还参与运营了达拉斯国际广播中心、迈阿密赛事运营中心和迈阿密技术指挥中心等核心节点的运行,实时保障着三国 16 城的赛事运转。

这种深度参与世界杯赛事运营的能力,不是任何 AI 厂商可以单独复制的入场路径,也让联想拥有了搭建世界杯预测实验场的独特条件。

在此基础上,联想天禧 AI 以 " 召集者 " 的角色发起人机大战,召集国内 11 家主流 AI 同台亮出预测,以赛果为唯一的评判标准。这个设计本身就确保了实验的公信力:没有任何一家参与者能够掌控结果。

最终," 世界杯预测人机大战 " 打造出全球首个 AI 团体与全民同场预测的世界杯人机对决,吸引了超 1800 万用户实际参与——这个规模,让它从一个品牌活动,变成了一个具备统计意义的公开实验。

裁判台上的位置,不只是联想一家的收益

把上述三件事放在一起看,就能理解联想在 2026 年世界杯的这步棋的真正价值所在。

它不只是一次有声量的品牌营销。联想通过人机大战搭建的,是中国 AI 行业第一个在真实世界中持续运行、全民可见、无法事后修改的能力验证公共平台。在这个平台上,各家大模型的真实表现被逐场记录,AI 能力的边界被一点点摊开给所有人看。这个 " 裁判台 ",给了中国 AI 行业一个此前从未有过的公共能力坐标。

对联想而言,它占据的是这个坐标系的搭建者和运营者位置——不是一个大模型,而是一个能把大模型拉到同一张答卷上、让真实世界来评判的平台型角色。

这个角色,在 AI 产业从 " 百模大战 " 向真实场景落地的过渡阶段,具有不可忽视的战略价值。当大模型们都在寻求更多的真实场景验证时,能提供这种验证机会的平台,本身就是一种稀缺的基础设施。

6 月 24 日 21:00,《人机大战:谁是世界杯预言家》节目的上线,是这场实验从 " 数据可读 " 升级为 " 过程可看 " 的节点。节目的 20 场直播、嘉宾与 AI 同台的公开预测、每场赛后的实时复盘,会将这个裁判台的影响力从千万参与者扩展到更大量级的观众,成为实验进入更大舞台的开始。

截至目前,人机大战仍在进行中,后续赛程的数据还在持续产生。这场实验的完整结论,要等 104 场比赛全部打完才能落定。但有一件事已经清晰:在 2026 年这个 "AI 世界杯元年 ",联想选择了一种比喊口号更扎实的方式来证明 AI 的价值——让真实的赛果,替中国 AI 说话。

相关标签

相关阅读

最新评论

没有更多评论了
新浪财经

新浪财经

新浪财经提供7*24小时财经资讯及全球金融市场报价;覆盖股票、债券、基金、期货、信托、理财、管理等多种面向个人和企业的服务。

订阅

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容

企业资讯

查看更多内容