像玩 FPS 一样生成游戏场景。
文 / 青晖
过去一年,3A 市场寒气逼人,育碧、索尼、微软等巨头接连裁撤工作室、取消在研 3A 项目。
这背后主要原因,是 3A 游戏开发成本的失控,ROI 不成正比。厂商们开始寻找降本增效的办法,有些厂商选择的裁人裁项目,有些厂商则把希望寄托于 AI。
去年下半年,Genie 3 的突破,让「世界模型」成了不少游戏厂商关注的焦点,其「靠提示词生成互动场景」的能力,可能会让 3A 游戏节省大量资产制作成本。
随后,世界模型这股技术风也吹向了国内,腾讯、昆仑万维等厂商纷纷布局。今天上午,蚂蚁灵波科技也公布了新的世界模型—— LingBot-World,葡萄君仔细阅读了一下技术文档,隐隐感觉,距离世界模型改变游戏开发路径的那一天不远了。
01
世界模型,新游戏引擎?
葡萄君先介绍一下啥是世界模型,简单来说,就是用一段提示词,生成一个可以互动的虚拟场景的视觉大模型。
以 LingBot-World 世界模型为例,在生成场景界面,用户可以按「上下左右」键,直接或操控一个主体(人物、猫、车等)来探索这个场景,场景会根据你移动的方向,自动生成新元素来扩充画面。

也就是说,用户可以像玩 FPS 或第一人称 RPG 一样,操控视角到处走,边走边生成一个完整的场景。

以前视频模型生成场景往往缺乏底层规律,没有因果关系、物体会胡乱变化,例如:很多 AI 视频里,画面一转换,箱子突然就变成了椅子;人物把杯子放桌上,镜头切走再切回来,杯子莫名其妙换了一个位置等。
而这些问题,在世界模型中都被解决了。
LingBot-World 在技术文档中展示了不少场景,可以很好展示世界模型中画面元素的一致性:

此外,这款世界模型还能对视野外的未观测区域进行动态推理,比如两组汽车行驶的场景:

第二组场景中,即便汽车移出视野,也会在模型的模拟下继续沿道路行驶,并在合理的位置重新出现,而非消失或静止不动。
这些行为表明,作为世界模型,LingBot-World 模拟的是现实世界的时空,而非纯像素记忆。
世界模型这些能力,以前更多会运用在具身智能之类的场景,帮助机器人在「脑子」里预演现实世界的动作。
但从能力特性来看,它也非常契合游戏开发。像前文提到的场景生成功能,形式和在游戏引擎中搭建游戏场景的逻辑高度相近——建立一个符合规则的物理场景,已经放置好的东西不会消失。

LingBot-World 在技术报告中称,该模型可以做到分钟级的无损生成,这个时长,生成一个游戏小 Demo 没什么问题,尽管该技术还处于起步阶段,但起码算是可用了。
02
AI 生成开放世界,
开发成本爆降?
有了 LingBot-World 这样的世界模型能力,未来的游戏开发,会有哪些变化?
我们不妨大胆来假设一下。
首先有了世界模型,游戏开发者可以无需编写代码,即可制作核心玩法,从而降低早期 Demo 的试错成本。
举个例子,开发者要做一款开放世界游戏,想实现一个类似塞尔达「究极手」新能力的场景。传统做法需要开发去做吸附 / 旋转 / 连接的规则、物理约束、UI 交互,再做素材和水体反馈等等,验证时间成本非常高。
而在世界模型中,只需让策划、美术把一张概念图或实拍照片丢给 LingBot-World,描述相关功能需求,它就可以按照原图生成整个场景,并实现相应的物理规则。觉得 Demo 不符合预期也没关系,重新做也费不了多长时间。
其次,游戏厂商也可以利用世界模型来做自动化测试、训练智能 NPC 等。
根据 LingBot-World 的技术文档介绍,对于需要复杂物理交互的游戏来说, 该模型能提供符合物理规律的高动态环境,可以帮助厂商进行大规模自动化测试、检测物理碰撞和逻辑漏洞。比如实时生成不同的虚拟游戏环境,在环境中训练高智能 NPC 和测试自动化 Agent 等。

LingBot-World 的场景创建思路很符合「无限开放世界」的想法,该模型给场景变化预设了几种不同的方式。
比如,仅通过提示词,就能给同一场景更换不同的状态。在下面这个骑龙向城堡飞行的场景中,可以通过提示词,添加烟花、闪电、护盾等特效,也可以改变天气、季节。
这些变化都是在完全不改变原场景动作的基础上达成的。




更重要的是,它还有可能会从根源上解决 3A 游戏困境中的成本问题。
据葡萄君了解,此前,在 3A 游戏开发中,美术相关资产(如角色场景建模 // 动画特效 /UI/ 过场等)可达项目总成本 30%~40%,如果是开放世界游戏,这个比例还会更高。这其中还有很多是试错成本,比如美术、玩法交互不符合需要,就得推倒重来。

而世界模型的核心能力之一,就是生产上述资产,抛开算力金钱成本不谈,光是时间成本带来的增效收益,就能让 3A 厂商们大喘一口气。
03
对标 Genie 3 ,但开源
去年 Genie 3 发布,确实给行业带来了不小的震撼,直到今天,它依然代表着世界模型领域的最高技术水准,也让很多游戏厂商看见了降本的希望。
但遗憾的是,Genie 3 是一款闭源模型,社区和开发者无法基于它持续开发、深度迭代;而且它目前主要用于研究与合作项目,尚未面向公众开放 API,我们能接触到的基本只有 Demo,也很难真正评估它的可用性与边界。
相比之下,开源的 LingBot-World 目前已经可以部署尝试了。
LingBot-World 在性能上也明确在对标 Genie 3 ——从官方公开的对比测试来看,多项指标与 Genie 3 基本持平,部分场景甚至更强(例如高动态环境),此外,现阶段 Genie 3 对外展示的 Demo 多在 1 分钟左右,更长时间的生成能力还无法验证,而 LingBot-World 已经能够生成可体验的 10 分钟互动视频内容。


点击「阅读原文」可了解详情
推荐阅读

游戏行业书籍推荐:
点击下方名片,关注公众号
(星标可第一时间收到推送和完整封面)