
短短几天内,AI 圈几乎是连珠炮式地发布了一系列重磅世界模型。
先是李飞飞的 World Labs 开源了 Spark 2.0,紧接着腾讯在昨天正式发布并开源了混元 3D 世界模型 2.0(HY-World 2.0)。

阿里也马不停蹄,新成立的 ATH 旗下创新事业部团队,刚刚才官宣了 HappyHorse,立刻又发布世界模型 HappyOyster。

最容易忽略的还有英伟达 Lyra 2.0,没有发布会和新闻稿,旗下的空间智能实验室直接甩出一篇论文,「可探索的生成式 3D 世界。」

这种密集程度让人产生一种错觉,那些生图生视频模型是不是都弱爆了。现在的 AI 已经从「生成一张图、一段视频」的平面阶段,大步来到「构建一个世界」的 3D 空间时代。
不仅技术端在狂飙,资本市场也给出了强烈的回应。
今天,群核科技正式登陆港交所。这家空间智能公司一直致力于推动 AI 进入物理世界。它的成功上市,标志着「世界模型第一股」的正式诞生,也向外界释放了一个明确信号:世界模型,真的开始火了。
而在热闹之余,我们也发现虽然这些公司都叫世界模型,但是路线完全不同,只能生成视频的像是一个 Demo 产品;能生成 3D 资产的看似可以融入开发设计的工作流;还有在论文里的未来工作畅想,希望用于机器人的训练。

从看电影到开始游戏
此前我们聊世界模型,大多像在聊一个「更长、更懂物理规律、一致性保持更强的视频」。但这次体验混元 2.0,最直接的冲击力在于,它生成的不再是 MP4,而是真正的 3D 资产文件。
在体验中,我用简单的提示词输入了「吉卜力风格的山间小镇,黄昏」。在几分钟的计算后,出现在屏幕上的画面像是一个大世界游戏。
点击下载,混元 3D 提供了全景图、Splats 的 .spz 文件和 .ply 文件,以及 Collider mesh 一共四种 3D 资产文件格式。
四种文件类型涵盖了 Mesh(三角面片网格)、3DGS(3D 高斯泼溅)、点云等多种格式的 3D 资产文件,这些文件可以直接导入 Unity、Unreal Engine,游戏开发者拿到手之后可以继续编辑、调整、搭建关卡。

在世界生成任务上,除了常见的文生世界,混元 3D 同样支持图生世界。我们找了一张《拯救计划》电影截图,Rocky 最后在波江座人给他搭建的世界里漫步,让混元来还原整个波江座。

当使用 Unsplash 上下载的高清雪山图片时,混元 3D 世界模型 2.0 生成的雪景,画质和真实感都更强。


无论是上传图片还是文字提示词,应用内都有相关的指引,例如上传的图片分辨率不能小于 512*512,避免画面出现人物,不要有动物 / 人物特写,避免使用纯色、纯纹理图片;以及天空、星空等画面占比较大图片也不适合等。
而文本提示词,最好是场景类别(沙漠、海面、房间等)+ 场景特征(物体、天空等视觉描述)+ 风格(可选,卡通 / 写实 / 油画风格等)。
混元 3D 世界模型 2.0 的风格化控制表现也很好,从官网已有的世界案例能看到,无论是温馨的绘本风还是写实的游戏风,它对语义的解析非常精准;墙壁的纹理、地牢的阴影和光感都极具沉浸感。

现在我们可以直接操控一个角色在刚刚生成的场景里行走、加速、跳跃、转弯、探索,整个过程就像是在玩一个大世界游戏。同时,它自带物理碰撞,角色不会穿墙而过,也不会掉出地图边缘。

实时生世界时,我们能直接控制角色的行动,混元 3D 模型会自动生成对应的世界,单次生成的时长是一分钟。


新的模型架构,打通了「理解、生成、重建」的闭环。
HY-Pano-2.0: 不需要专业的相机参数,普通图片就能映射出 360 ° 全景。
空间 Agent 技术: 像给 AI 装上了导航,它能智能规划漫游轨迹,确保护理和视觉上的衔接不会穿帮。
HY-WorldMirror 2.0: 保证了即使是在大幅度的视角变换下,物体侧面和背面的完整度依然在线。
在世界重建任务上,混元世界模型 2.0 输入多张图或视频流,就能做到重建真实场景。

并且,这个创意,无论是以文字、图片还是视频的形式呈现,它都可以生成一个拖进 Unity 的原型,哪怕质量还需要调整,哪怕很多细节还要人工修改,但整个设计的工作流,AI 也开始在发力了。
疯狂的世界模型周,疯狂的 AI
当我们再把视线从混元 3D 世界模型 2.0 的资产生成、角色模式、世界重建,拉回本周连发的其他几个世界模型,我们会发现,这些不同在不同维度突围的世界模型,正共同拼凑出世界模型更明确的样子。
阿里 HappyOyster 目前还在主打漫游和导演模式,让我们用自然语言随时介入世界演化,改写剧情走向和角色动作。
英伟达 Lyra 2.0 用一张图就能生成长达 90 米的连贯 3D 环境,它生成的场景甚至能直接丢进 Isaac Sim 给机器人做物理训练。
李飞飞 Spark 2.0 打通「交付最后一公里」,前面那些模型都在解决怎么造世界,而 Spark 2.0 已经开始解决怎么给人看。它通过独创的流式加载和虚拟内存技术,把上亿个 3DGS 粒子的超大世界,硬生生塞进了普通手机的网页浏览器里。

看着这些各显神通的世界模型界面,一个现实的结论是:很明显,世界模型还没迎来它的 ChatGPT 时刻。
四家公司这一周的密集发布更像是在为这个时刻做准备,画面质量、交互能力、资产格式、交付方式、仿真精度,每个都在朝着自己的方向优化。但把这些块拼成一个「让普通人愿意每天打开」的产品,还没有模型做到。
在过去两年里,随着 AI Coding 重塑代码开发、Nano Banana 等模型颠覆平面设计,前端工程师和平面设计师们已经经历了「xxx is DEAD」。现在,这朵雪花大概是要飘到 3D 设计的护城河上。
随着更多模型厂商的下场,3D 设计的工作流也会慢慢从 AI 辅助走向 AI 主导。到那时,生成并体验一个 3D 互动世界,将会像今天我们在手机上刷短视频一样流畅、低成本且理所当然。
毕竟,在所有的科幻叙事里,没有任何人会抗拒自己成为「造物主」,去自定义一个新世界。