关于ZAKER Skills 合作
科创板日报 27分钟前

世界模型站上智源大会 C 位 图灵奖得主把 AI 普及的时间往前拨了 50 年

《科创板日报》6 月 13 日讯(记者 李明明)6 月 12 日,第八届北京智源大会在中关村国际创新中心开幕。2015 年图灵奖得主惠特菲尔德 · 迪菲在现场抛出的远期判断,为这场行业盛会定下了核心基调:人工智能正从数字世界向物理世界跃迁,世界模型正在成为下一阶段技术竞争的核心赛道。

迪菲在《护 AI 智能体之安,御 AI 智能体之险》的主旨演讲中明确提出,机器智能终将深度主导社会运行,且不会以科幻作品中的人机对抗形式出现。人类会主动接纳技术带来的效率提升,逐步将事务决策权交由机器代劳,最终形成深度依赖的共存关系。他将这一进程的预判时间从本世纪末提前至 2050 年前后。

这一判断的技术落点,正是本届大会最受关注的世界模型。此前大语言模型仅能处理数字世界的文本信息,并不具备介入真实物理场景的决策能力;而世界模型实现了从 " 预测下一个词元 " 到 " 预测下一个物理状态 " 的范式跃迁,让 AI 得以理解时空规律、推演场景演化,成为机器代劳真实事务的底层技术支撑。这种渗透进工业、物流、家居等日常场景的技术演进,恰好契合迪菲所说的 " 非对抗式接管 " 路径。

迪菲同时敲响安全警钟:当前行业惯用的补丁式安全逻辑,已无法适配智能体自主行动的新场景,智能体权限边界缺失是当下最突出的短板。当世界模型驱动 AI 从生成内容转向操控实体,行为偏差的代价将从信息误差升级为现实损害,安全框架必须前置布局。

针对当下 " 人人皆言世界模型 " 的行业热潮,智源研究院院长王仲远在大会期间做出正本清源。他首次将当前主流技术路线划分为四类:以语言为中心的多模态模型、以像素为中心的视频生成模型、以 3D 重建为中心的空间模型,以及以隐空间表征为中心的 JEPA 路线。

" 视频生成不等于世界模型。" 王仲远告诉《科创板日报》记者,以 Sora 为代表的视频生成模型本质是 " 世界模拟器 ",训练数据掺杂大量影视科幻内容,无法保证物理规律的正确性,不足以支撑真实物理场景的决策。3D 重建路线则更多服务于元宇宙、数字孪生等虚拟场景,并未触达物理世界的因果规律。

据王仲远介绍,智源选择的是语言与视觉表征融合的技术路线,在统一潜空间中编码物理状态,核心是预测 " 下一个物理状态 " 而非生成具体像素画面。本届大会上,智源发布全球首个通用世界基座模型 " 悟界 · Physis-v0.1",主打物理一致性、动作因果性、长程可推演性与通用泛化性。

据介绍,悟界 · Physis-v0.1 具备四大核心特性:物理正确、动作因果可溯、长程一致与通用泛化。模型可适配机器人、视频生成、游戏、工业等全垂类真实物理应用场景,为具身智能、严肃工业等领域提供底层支撑。

在产业阶段判断上,王仲远认为,当前世界模型大致相当于 2012 年深度学习刚兴起的时期,技术路线尚未收敛,真实物理数据严重不足,距离规模化应用仍有较长距离。但与大语言模型时代中美存在明显代差不同,他明确表示,在世界模型领域中美站在同一起跑线,中国科研机构有机会走出自己的原创技术路线。

数据是当前世界模型发展的核心卡点。真实物理世界的多模态交互数据极度分散,尚未形成类似互联网文本的规模化数据集。王仲远表示,视频数据仍是当前最易规模化获取的资源,其价值尚未被充分挖掘;而具身场景的逐步落地将持续积累真实交互数据,形成技术迭代的正向循环。

从图灵奖得主的远期预判到一线科研机构的路线探索,本届智源大会清晰传递出行业信号:参数竞赛的红利已逐步见顶,物理世界正在成为人工智能的新赛场。而技术突破与安全建设能否同频推进,将决定这场范式跃迁的最终走向。

相关标签
科创板日报

科创板日报

上交所科创板电报,股市行情报道

订阅

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容