首个实时世界模型发布：视频媒介的「交互」时代开始了

视频成为了一种可玩、共创的「过程」。

作者｜连冉

编辑｜郑玄

如果你玩过 AI 视频，一定对「等待期」深有体会：在输入框敲下一串 Prompt，按下生成键，然后便得对着旋转圆圈等待至少几十秒或者几分钟。

而且也不知道几分钟后返回来的 MP4 是一场惊喜还是一次货不对板的惊吓。这种有些割裂的、异步式的创作，让 AI 变得像个略有些笨重的远程工具，虽然好玩，但也没那么好玩。

直到我刚刚试用了爱诗科技发布的 PixVerse R1。

在「赛博朋克城市」的场景中，我并没有按下「生成」按钮，也没有盯着旋转的进度条发呆。

我只是在输入框输入我想要的画面，「开始下大雨，霓虹灯在湿润的地面上反射出来」，接着「突然，城市大停电。只有紧急红灯亮着」，「快速向上飞，穿过摩天大楼到达城市的上层区域。」

视频来源：极客公园

画面中的光影立刻随着语意发生了流转。没有黑屏加载，没有重新渲染的割裂感，就像镜头真的听懂了我的指挥，实时向前推进。

一个 AI 模型正在以即时响应级的速度，为我「实时编织」一个从未存在的视觉世界。

这是爱诗科技刚刚发布的 PixVerse R1，是「全球首个支持最高 1080P 分辨率实时生成的世界模型」。

当视频不再是一个确定的「结果」，而变成了一个可以被实时干预、持续存在的「过程」时，它还是我们印象里的「视频」吗？

这种被称为「Playable Reality」（可玩现实）的新形态，究竟是噱头还是未来？

进度条的消亡

2024 年年初，Sora 基于 DiT（Diffusion Transformer）架构，把长视频生成的效果提高到前所未有的水平，掀起了全球范围内的视频生成热潮。

但在 AI 视频行业狂飙突进的这两年里，我们虽然被 Sora、被各种视频大模型惊艳，但这种惊艳始终带着一种「延迟感」。这种延迟不仅是技术上的，更是心理上的。

过往，AI 视频生成被戏称为「开盲盒」。用户输入一段长长的提示词，然后进入一段名为「生成中」的垃圾时间。这段时间长则数分钟，短则几十秒，但在人类的创作心流中，这几十秒足以让灵感断裂。

用户得到的是一个 MP4 文件，如果光影不对、构图不佳，只能修改提示词，再次进入漫长的等待循环。这种「输入 - 等待 - 输出」的异步逻辑，本质上是人类在迁就机器的算力和算法逻辑。

PixVerse R1 的出现，正在试图终结这种「迁就」。实时生成的真正意义，绝不仅仅是「快」。如果启动延迟降低的足够低，帧率也足够稳定在，人类的感知系统会发生错觉：你不再觉得自己是在使用一个工具，而是觉得你正处于一个「活着的」世界里。

视频来源：爱诗科技

可以看到，在这个视频里，PixVerse R1 展现出一种水流般的即时感。当指令发出，画面的色彩、材质、甚至物理规律会瞬间响应。

随着「A city wall ahead.Jump over it and enter the city」指令的输入，角色从树林场景瞬间传送到了中式城楼前的石桥上，正朝着城楼大门跑去；随着「Transform into a robot and fight」指令的输入，画面拉近，主角从小人变身机器人并且迅速进行了一番打斗，场景和角色动作的切换非常流畅自然。

这种「实时编织」让创作从「离线渲染」变成了「在线生产」。当技术响应速度追平了思维速度，令人困扰的「进度条」就此消亡，技术本身变得透明，它变成了感官的自然延伸。

而这种质变源于爱诗科技过去 800 天的「狂奔式迭代」。早在 2023 年 10 月，爱诗科技就发布了早于 Sora 的全球首个 4K 模型 V1；2024 年 2 月，它成为国内首家落地 DiT 架构的创业公司。这种对底层架构的「先行一步」，让 PixVerse 在全球斩获了超过 1 亿用户。如今 R1 实现的「即时感」，正是这种长期架构押注后的必然爆发。

Playable Reality，

介于游戏与视频之间的新物种？

长期以来，视频和游戏被视为两条平行线：视频拥有高拟真的质感但缺乏互动，游戏拥有高互动性但在视觉拟真度上受限于算力。而 PixVerse R1 正在打破这种边界。

PixVerse R1 定义的「Playable Reality（可玩现实）」，正是这两条平行线的交叉点。它不是传统意义上的视频，因为它允许实时干预；它也不是传统意义上的游戏，因为它不是由程序员预设的代码逻辑驱动，而是由 AI 对现实世界的模拟能力（世界模型）驱动。

从确定的、封闭的、一次性交付的 MP4 文件，到被 R1 定义的「过程」，一个可以被实时干预、持续存在的视觉世界。只要你持续给予交互，这个世界就会持续演化。

在这个创作过程中，用户不再是坐在屏幕前的观众，也不仅仅是复杂的参数调试者，而是变成了「共同创作者」，可以用语言、情绪、意图直接干预世界的走向。

这意味着视频创作门槛的进一步降低。理想状态下，我们不再需要学习复杂的非线性剪辑，也不需要理解光影参数，只需要通过简单的交互——无论是文字还是语音——就能控制视频的发展。

支撑这种「随心而动」体验的，是 PixVerse R1 背后的三大技术支柱：Omni 原生多模态基础模型、自回归流式生成机制，以及一套专门为交互设计的瞬时响应引擎。

首先，是 Omni 原生多模态基础模型。不同于以往通过插件或叠加模型来理解语意，R1 从底层逻辑上就实现了视觉与语意的深度融合。这意味着模型在指令发出的瞬间，就在潜空间里完成了对物理世界的重构。

其次，为了消灭画面切换时的「闪烁」与「刷新感」，爱诗科技引入了自回归流式生成机制。在传统的生成逻辑中，每一帧往往是孤立或弱相关的，但在 R1 的体系下，视频不再是由一个个「固定片段」拼接而成，而是一条无限、连续且交互的视觉流。这种机制确保了在实时交互时，每一帧的演变都极其丝滑，没有重新加载的割裂感。

最后，支撑即时反馈的物理基础是其自研的瞬时响应引擎。通过对算力的极限调度和算法优化，它将启动延迟压缩到了人类几乎感知不到的程度

在爱诗科技发布的技术报告中，他们将这种演进描述为从 Fix-length clip（固定片段）向 Infinite visual stream（无限可视化流）的范式转移。这意味着，AI 视频不再是一次性的烟花，而是一个可以无限延伸的数字宇宙。

当然，PixVerse R1 并非完美。爱诗科技在报告中坦诚地提到了「时间误差累积」的挑战——在极长的时间线里，微小的误差可能会让物理模拟出现波动。

为了追求 1080P 的实时响应，团队在某些极致物理细节上做了取舍。但这种「权衡」恰恰展现了某种务实：与其追求一个只能在服务器里跑几小时才能出来的完美标本，不如给用户一个可以即时触碰、尽管尚有微瑕的「活世界」。

当技术「隐形」，把世界还给想象

PixVerse R1 目前展示出的能力，本质上是给数字世界铺设了一层「实时生成层」。这层能力的释放，其影响力将远超视频创作本身。

想象一下，当这种能力被 API 化，它将如何重塑数字娱乐？

比如未来的游戏 NPC 不再只有固定动作，基于实时生成技术，他们可以根据你的语气实时生成独特的表情动作和视觉反馈。

电影也不再有唯一的结局，而是变成每个人都能走进其中的开放世界，通过交互，都会看到一个属于自己的、实时编排的独一无二的故事。

对于这种范式转移，爱诗科技创始人兼 CEO 王长虎有着更具本质色彩的定义。他认为，PixVerse R1 是一种全新的媒体形式。

「传统视频是被记录的历史，而 PixVerse R1 开创了『正在发生的现在』的实时生成新纪元。」 王长虎表示，在这样的背景下，创作与消费的边界将逐渐模糊——视频消费者本身也成为创作者，可以在观看的同时即时调整和生成新内容。

这种「所想即所现」（As You Think）的能力，让王长虎对未来的数字生态充满了想象：「无论是 AI 原生游戏、互动电影，还是生成式直播电商体验，叙事都能实时响应用户意图。我们相信，每个人都能成为动态叙事的创作者。

爱诗科技的愿景是「让每个人都能成为自己生活的导演」。当技术足够先进、响应足够敏捷时，技术本身就会变得透明。PixVerse R1 正在做的，就是让「生成」这个繁琐的技术动作隐形，让位于人类最本能的「想象」与「表达」。

尽管 PixVerse R1 目前尚处于内测阶段，且暂未在国内上线体验，但它已然开启了「流动世界」的大门。

接下来，爱诗科技将采用内测码 / 定向邀请机制，一部分创作者将有机会先亲自触碰这个「流动的世界」。

* 头图来源：PixVerse 官网

本文为极客公园原创文章，转载请联系极客君微信 geekparkGO

极客一问

你如何看待视频媒介的「交互」时代？

热点视频

前比亚迪高管赵长江，宣布加入智界，将出任执行副总裁。

点赞关注极客公园视频号，

观看更多精彩视频

更多阅读

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

首个实时世界模型发布：视频媒介的「交互」时代开始了

宙世代

一起剪

相关阅读

小米潘九堂：模仿是创新基础 都很正常 没必要抹黑

王自如复盘与罗永浩吵架：放现在来看就是泼天流量

老干妈回应陶华碧出山救子：复出是网友猜测 她一直在公司

荣耀500 Pro MOLLY 20周年限定版礼盒正式亮相！泡泡玛特联名 行业首款潮玩手机

MINIMAX为什么值1100亿

官宣！中国申请20.3万颗卫星频轨资源：未来手机将不再失联、海里沙漠里也能上网

就8GB显存爱要不要！RTX 5060/Ti将成NVIDIA重点：价格还要再涨

银河证券：AI应用商业化具备广阔发展空间

因美纳新业务部门BioInsight推出首个数据产品

郭明錤分析苹果AI战略：与谷歌合作是解决燃眉之急

“新易中天”狂飙，“概念溢价”风险初显

反转太快！「死了么」改名遭全网质疑，这波操作太打脸了

哪哪都香的 MG7，凭啥在国内就是卖不好？

马斯克旗下聊天机器人面临多国封禁

Sora+多模态AI+机器人+华为鸿蒙！公司多款产品已接入谷歌新一代图像生成与编辑模型Nano Banana Pro

最新评论

极客公园

热门推荐

小米潘九堂：模仿是创新基础都很正常没必要抹黑

老干妈回应陶华碧出山救子：复出是网友猜测她一直在公司

荣耀500 Pro MOLLY 20周年限定版礼盒正式亮相！泡泡玛特联名行业首款潮玩手机