关于ZAKER 合作
游戏葡萄 32分钟前

零代码,一张图生成大世界 Demo,国产开源世界模型这么猛?

像玩 FPS 一样生成游戏场景。

文 / 青晖

过去一年,3A 市场寒气逼人,育碧、索尼、微软等巨头接连裁撤工作室、取消在研 3A 项目。

这背后主要原因,是 3A 游戏开发成本的失控,ROI 不成正比。厂商们开始寻找降本增效的办法,有些厂商选择的裁人裁项目,有些厂商则把希望寄托于 AI。

去年下半年,Genie 3 的突破,让「世界模型」成了不少游戏厂商关注的焦点,其「靠提示词生成互动场景」的能力,可能会让 3A 游戏节省大量资产制作成本。

随后,世界模型这股技术风也吹向了国内,腾讯、昆仑万维等厂商纷纷布局。今天上午,蚂蚁灵波科技也公布了新的世界模型—— LingBot-World,葡萄君仔细阅读了一下技术文档,隐隐感觉,距离世界模型改变游戏开发路径的那一天不远了。

01

世界模型,新游戏引擎?

葡萄君先介绍一下啥是世界模型,简单来说,就是用一段提示词,生成一个可以互动的虚拟场景的视觉大模型。

以 LingBot-World 世界模型为例,在生成场景界面,用户可以按「上下左右」键,直接或操控一个主体(人物、猫、车等)来探索这个场景,场景会根据你移动的方向,自动生成新元素来扩充画面。

而且这个场景不是预加载的,而是实时生成的。根据 LingBot-World 介绍,该模型在交互场景下,能做到16fps(每秒显示 16 帧画面)的生成速度,移动延迟小于 1 秒。

也就是说,用户可以像玩 FPS 或第一人称 RPG 一样,操控视角到处走,边走边生成一个完整的场景。

听上去是不是跟 AI 生成视频差不多?其实完全不一样,因为这个开放世界的逻辑是连贯、一致的。

以前视频模型生成场景往往缺乏底层规律,没有因果关系、物体会胡乱变化,例如:很多 AI 视频里,画面一转换,箱子突然就变成了椅子;人物把杯子放桌上,镜头切走再切回来,杯子莫名其妙换了一个位置等。

而这些问题,在世界模型中都被解决了。

LingBot-World 在技术文档中展示了不少场景,可以很好展示世界模型中画面元素的一致性:

比如在上面这一组三个场景中,静态地标(雕塑、巨石等),即使离开画面后 60 秒,仍然保持在原位置,没有发生任何改变。

此外,这款世界模型还能对视野外的未观测区域进行动态推理,比如两组汽车行驶的场景:

第一组场景中,当相机向右转动,跟随面包车跑了一段后,再回到正面视角时,远处的桥梁被渲染得明显更近了。

第二组场景中,即便汽车移出视野,也会在模型的模拟下继续沿道路行驶,并在合理的位置重新出现,而非消失或静止不动。

这些行为表明,作为世界模型,LingBot-World 模拟的是现实世界的时空,而非纯像素记忆。

世界模型这些能力,以前更多会运用在具身智能之类的场景,帮助机器人在「脑子」里预演现实世界的动作。

但从能力特性来看,它也非常契合游戏开发。像前文提到的场景生成功能,形式和在游戏引擎中搭建游戏场景的逻辑高度相近——建立一个符合规则的物理场景,已经放置好的东西不会消失。

值得一提的是,目前不少模型虽能生成这样的互动场景,却仅能实现 5~10 秒的生成时长,这对于游戏开发而言几乎不具备实际应用价值。

LingBot-World 在技术报告中称,该模型可以做到分钟级的无损生成,这个时长,生成一个游戏小 Demo 没什么问题,尽管该技术还处于起步阶段,但起码算是可用了。

02

AI 生成开放世界,

开发成本爆降?

有了 LingBot-World 这样的世界模型能力,未来的游戏开发,会有哪些变化?

我们不妨大胆来假设一下。

首先有了世界模型,游戏开发者可以无需编写代码,即可制作核心玩法,从而降低早期 Demo 的试错成本。

举个例子,开发者要做一款开放世界游戏,想实现一个类似塞尔达「究极手」新能力的场景传统做法需要开发去做吸附 / 旋转 / 连接的规则、物理约束、UI 交互,再做素材和水体反馈等等,验证时间成本非常高。

而在世界模型中,只需让策划、美术把一张概念图或实拍照片丢给 LingBot-World,描述相关功能需求,它就可以按照原图生成整个场景,并实现相应的物理规则。觉得 Demo 不符合预期也没关系,重新做也费不了多长时间。

其次,游戏厂商也可以利用世界模型来做自动化测试、训练智能 NPC 等。

根据 LingBot-World 的技术文档介绍,对于需要复杂物理交互的游戏来说, 该模型能提供符合物理规律的高动态环境,可以帮助厂商进行大规模自动化测试、检测物理碰撞和逻辑漏洞。比如实时生成不同的虚拟游戏环境,在环境中训练高智能 NPC 和测试自动化 Agent 等。

还有,世界模型也为游戏带来了更广阔的玩法畅想,比如让「无限且逻辑自洽的开放世界」游戏成为可能。

LingBot-World 的场景创建思路很符合「无限开放世界」的想法,该模型给场景变化预设了几种不同的方式。

比如,仅通过提示词,就能给同一场景更换不同的状态。在下面这个骑龙向城堡飞行的场景中,可以通过提示词,添加烟花、闪电、护盾等特效,也可以改变天气、季节。

这些变化都是在完全不改变原场景动作的基础上达成的。

再比如,用一张初始图像,不给更多提示词,LingBot-World 也可以自己模拟去探索环境,生成一个完整的世界。

除了上面这两个全局的变换思路,LingBot-World 还能根据提示词,向场景中局部位置加入特定的物体,比如让模型「在喷泉里生成几只鱼」。局部添加的物体也可以和玩家直接互动,比如「走到城堡附近就触发烟花」等。

有了这些能力,未来,游戏可能不再完全依赖美术手工堆砌资产,游戏环境 / 关卡都可以根据玩家行为实时生成,也可以根据运营需求随时变更,想换城堡,就换城堡,想换 BOSS,就换 BOSS,都是几句话的事。

这些场景设想和模型能力,都为游戏研发管线提供了新思路。

更重要的是,它还有可能会从根源上解决 3A 游戏困境中的成本问题。

据葡萄君了解,此前,在 3A 游戏开发中,美术相关资产(如角色场景建模 // 动画特效 /UI/ 过场等)可达项目总成本 30%~40%,如果是开放世界游戏,这个比例还会更高。这其中还有很多是试错成本,比如美术、玩法交互不符合需要,就得推倒重来。

图源 JuegoStudio

而世界模型的核心能力之一,就是生产上述资产,抛开算力金钱成本不谈,光是时间成本带来的增效收益,就能让 3A 厂商们大喘一口气。

03

对标 Genie 3 ,但开源

去年 Genie 3 发布,确实给行业带来了不小的震撼,直到今天,它依然代表着世界模型领域的最高技术水准,也让很多游戏厂商看见了降本的希望。

但遗憾的是,Genie 3 是一款闭源模型,社区和开发者无法基于它持续开发、深度迭代;而且它目前主要用于研究与合作项目,尚未面向公众开放 API,我们能接触到的基本只有 Demo,也很难真正评估它的可用性与边界。

相比之下,开源的 LingBot-World 目前已经可以部署尝试了。

LingBot-World 在性能上也明确在对标 Genie 3 ——从官方公开的对比测试来看,多项指标与 Genie 3 基本持平,部分场景甚至更强(例如高动态环境),此外,现阶段 Genie 3 对外展示的 Demo 多在 1 分钟左右,更长时间的生成能力还无法验证,而 LingBot-World 已经能够生成可体验的 10 分钟互动视频内容。

性能上对标 Genie 3,且开源、可用,也就意味着,LingBot-World 已经可以让更多游戏团队,立马拥有一个 SOTA 级别的世界模型底座,让节省成本做 3A 这件事,更具备了可能性。

游戏葡萄招聘内容编辑,

点击「阅读原文」可了解详情

推荐阅读

年轻人爆仓 | 8000 成本 AI 创业| 对话鸭科夫

星布谷地| 望月重做| 灰境行者

明日方舟终末地| 无限大| 字节 AI 玩原神

游戏行业书籍推荐:

点击下方名片,关注公众号

(星标可第一时间收到推送和完整封面)

相关标签
ai

觉得文章不错,微信扫描分享好友

扫码分享