关于ZAKER 合作
极客公园 23分钟前

首个实时世界模型发布:视频媒介的「交互」时代开始了

视频成为了一种可玩、共创的「过程」。

作者|连冉

编辑|郑玄

如果你玩过 AI 视频,一定对「等待期」深有体会:在输入框敲下一串 Prompt,按下生成键,然后便得对着旋转圆圈等待至少几十秒或者几分钟。

而且也不知道几分钟后返回来的 MP4 是一场惊喜还是一次货不对板的惊吓。这种有些割裂的、异步式的创作,让 AI 变得像个略有些笨重的远程工具,虽然好玩,但也没那么好玩。

直到我刚刚试用了爱诗科技发布的 PixVerse R1。

在「赛博朋克城市」的场景中,我并没有按下「生成」按钮,也没有盯着旋转的进度条发呆。

我只是在输入框输入我想要的画面,「开始下大雨,霓虹灯在湿润的地面上反射出来」,接着「突然,城市大停电。只有紧急红灯亮着」,「快速向上飞,穿过摩天大楼到达城市的上层区域。」

视频来源:极客公园

画面中的光影立刻随着语意发生了流转。没有黑屏加载,没有重新渲染的割裂感,就像镜头真的听懂了我的指挥,实时向前推进。

一个 AI 模型正在以即时响应级的速度,为我「实时编织」一个从未存在的视觉世界。

这是爱诗科技刚刚发布的 PixVerse R1,是「全球首个支持最高 1080P 分辨率实时生成的世界模型」。

当视频不再是一个确定的「结果」,而变成了一个可以被实时干预、持续存在的「过程」时,它还是我们印象里的「视频」吗?

这种被称为「Playable Reality」(可玩现实)的新形态,究竟是噱头还是未来?

01

进度条的消亡

2024 年年初,Sora 基于 DiT(Diffusion Transformer)架构,把长视频生成的效果提高到前所未有的水平,掀起了全球范围内的视频生成热潮。

但在 AI 视频行业狂飙突进的这两年里,我们虽然被 Sora、被各种视频大模型惊艳,但这种惊艳始终带着一种「延迟感」。这种延迟不仅是技术上的,更是心理上的。

过往,AI 视频生成被戏称为「开盲盒」。用户输入一段长长的提示词,然后进入一段名为「生成中」的垃圾时间。这段时间长则数分钟,短则几十秒,但在人类的创作心流中,这几十秒足以让灵感断裂。

用户得到的是一个 MP4 文件,如果光影不对、构图不佳,只能修改提示词,再次进入漫长的等待循环。这种「输入 - 等待 - 输出」的异步逻辑,本质上是人类在迁就机器的算力和算法逻辑。

PixVerse R1 的出现,正在试图终结这种「迁就」。实时生成的真正意义,绝不仅仅是「快」。如果启动延迟降低的足够低,帧率也足够稳定在,人类的感知系统会发生错觉:你不再觉得自己是在使用一个工具,而是觉得你正处于一个「活着的」世界里。

视频来源:爱诗科技

可以看到,在这个视频里,PixVerse R1 展现出一种水流般的即时感。当指令发出,画面的色彩、材质、甚至物理规律会瞬间响应。

随着「A city wall ahead.Jump over it and enter the city」指令的输入,角色从树林场景瞬间传送到了中式城楼前的石桥上,正朝着城楼大门跑去;随着「Transform into a robot and fight」指令的输入,画面拉近,主角从小人变身机器人并且迅速进行了一番打斗,场景和角色动作的切换非常流畅自然。

这种「实时编织」让创作从「离线渲染」变成了「在线生产」。当技术响应速度追平了思维速度,令人困扰的「进度条」就此消亡,技术本身变得透明,它变成了感官的自然延伸。

而这种质变源于爱诗科技过去 800 天的「狂奔式迭代」。早在 2023 年 10 月,爱诗科技就发布了早于 Sora 的全球首个 4K 模型 V1;2024 年 2 月,它成为国内首家落地 DiT 架构的创业公司。这种对底层架构的「先行一步」,让 PixVerse 在全球斩获了超过 1 亿用户。如今 R1 实现的「即时感」,正是这种长期架构押注后的必然爆发。

02

Playable Reality,

介于游戏与视频之间的新物种?

长期以来,视频和游戏被视为两条平行线:视频拥有高拟真的质感但缺乏互动,游戏拥有高互动性但在视觉拟真度上受限于算力。而 PixVerse R1 正在打破这种边界。

PixVerse R1 定义的「Playable Reality(可玩现实)」,正是这两条平行线的交叉点。它不是传统意义上的视频,因为它允许实时干预;它也不是传统意义上的游戏,因为它不是由程序员预设的代码逻辑驱动,而是由 AI 对现实世界的模拟能力(世界模型)驱动。

从确定的、封闭的、一次性交付的 MP4 文件,到被 R1 定义的「过程」,一个可以被实时干预、持续存在的视觉世界。只要你持续给予交互,这个世界就会持续演化。

在这个创作过程中,用户不再是坐在屏幕前的观众,也不仅仅是复杂的参数调试者,而是变成了「共同创作者」,可以用语言、情绪、意图直接干预世界的走向。

这意味着视频创作门槛的进一步降低。理想状态下,我们不再需要学习复杂的非线性剪辑,也不需要理解光影参数,只需要通过简单的交互——无论是文字还是语音——就能控制视频的发展。

支撑这种「随心而动」体验的,是 PixVerse R1 背后的三大技术支柱:Omni 原生多模态基础模型、自回归流式生成机制,以及一套专门为交互设计的瞬时响应引擎。

首先,是 Omni 原生多模态基础模型。不同于以往通过插件或叠加模型来理解语意,R1 从底层逻辑上就实现了视觉与语意的深度融合。这意味着模型在指令发出的瞬间,就在潜空间里完成了对物理世界的重构。

其次,为了消灭画面切换时的「闪烁」与「刷新感」,爱诗科技引入了自回归流式生成机制。在传统的生成逻辑中,每一帧往往是孤立或弱相关的,但在 R1 的体系下,视频不再是由一个个「固定片段」拼接而成,而是一条无限、连续且交互的视觉流。这种机制确保了在实时交互时,每一帧的演变都极其丝滑,没有重新加载的割裂感。

最后,支撑即时反馈的物理基础是其自研的瞬时响应引擎。通过对算力的极限调度和算法优化,它将启动延迟压缩到了人类几乎感知不到的程度

在爱诗科技发布的技术报告中,他们将这种演进描述为从 Fix-length clip(固定片段)向 Infinite visual stream(无限可视化流)的范式转移。这意味着,AI 视频不再是一次性的烟花,而是一个可以无限延伸的数字宇宙。

当然,PixVerse R1 并非完美。爱诗科技在报告中坦诚地提到了「时间误差累积」的挑战——在极长的时间线里,微小的误差可能会让物理模拟出现波动。

为了追求 1080P 的实时响应,团队在某些极致物理细节上做了取舍。但这种「权衡」恰恰展现了某种务实:与其追求一个只能在服务器里跑几小时才能出来的完美标本,不如给用户一个可以即时触碰、尽管尚有微瑕的「活世界」。

03

当技术「隐形」,把世界还给想象

PixVerse R1 目前展示出的能力,本质上是给数字世界铺设了一层「实时生成层」。这层能力的释放,其影响力将远超视频创作本身。

想象一下,当这种能力被 API 化,它将如何重塑数字娱乐?

比如未来的游戏 NPC 不再只有固定动作,基于实时生成技术,他们可以根据你的语气实时生成独特的表情动作和视觉反馈。

电影也不再有唯一的结局,而是变成每个人都能走进其中的开放世界,通过交互,都会看到一个属于自己的、实时编排的独一无二的故事。

对于这种范式转移,爱诗科技创始人兼 CEO 王长虎有着更具本质色彩的定义。他认为,PixVerse R1 是一种全新的媒体形式。

「传统视频是被记录的历史,而 PixVerse R1 开创了『正在发生的现在』的实时生成新纪元。」 王长虎表示,在这样的背景下,创作与消费的边界将逐渐模糊——视频消费者本身也成为创作者,可以在观看的同时即时调整和生成新内容。

这种「所想即所现」(As You Think)的能力,让王长虎对未来的数字生态充满了想象:「无论是 AI 原生游戏、互动电影,还是生成式直播电商体验,叙事都能实时响应用户意图。我们相信,每个人都能成为动态叙事的创作者。

爱诗科技的愿景是「让每个人都能成为自己生活的导演」。当技术足够先进、响应足够敏捷时,技术本身就会变得透明。PixVerse R1 正在做的,就是让「生成」这个繁琐的技术动作隐形,让位于人类最本能的「想象」与「表达」。

尽管 PixVerse R1 目前尚处于内测阶段,且暂未在国内上线体验,但它已然开启了「流动世界」的大门。

接下来,爱诗科技将采用内测码 / 定向邀请机制,一部分创作者将有机会先亲自触碰这个「流动的世界」。

* 头图来源:PixVerse 官网

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

你如何看待视频媒介的「交互」时代?

热点视频

前比亚迪高管赵长江,宣布加入智界,将出任执行副总裁。

点赞关注极客公园视频号,

观看更多精彩视频

更多阅读

相关标签