
1 月 13 日晚,爱诗科技正式发布 PixVerse R1 ——全球首个支持 1080P 分辨率的通用实时世界模型 。这不仅是生成速度的提升,更是 AIGC 从 " 预录制 " 向 " 实时动态生成 " 的范式转移 。
从 " 异步渲染 " 到 " 即时反馈 " 的范式转移
在传统的 AI 视频制作流程中,开发者与创作之间始终隔着一道 " 时间的鸿沟 ":用户输入提示词后,往往需要经历数分钟甚至更久的后台渲染,这种长时延迟带来的 " 异步 " 体验,不仅打断了创意的连续性,更让视频生成更像是一种 " 开盲盒 " 式的离线任务 。
PixVerse R1 的发布,宣告了视频创作正式告别 " 等待时代 "。它通过三个维度的深度重构,将视频从冰冷的 " 成品文件 " 转化为一个活生生的 " 交互世界 ":
首先,响应速度。PixVerse R1 首次将视频生成的延迟从行业普遍的 " 秒级 " 乃至 " 分钟级 " 直接拉降至人眼感知的 " 瞬时 " 阈值 。通过其核心的瞬时响应引擎(IRE),R1 实现了类似人类自然谈话般的实时反馈,让 " 所想即所见、所说即所现 " 不再是口号,而成为触手可得的交互现实 。
其次,是创作逻辑从 " 预设 " 转向 " 实时共演 "。不同于传统模型一次性输出固定时长的短片,PixVerse R1 引入了革命性的流式生成机制 。这意味着用户可以在视频生成的任何时刻,像 " 导演 " 在拍摄现场实时喊话一样插入新指令 。例如,当画面中正展现 " 一只猫跳上窗台 " 时,用户若即兴补充 " 让天空变成黄昏 ",画面无需重新推倒重来,而是在约 0.5 秒内实现光影与色调的自然平滑过渡 。这种动态调整的能力,让视频从封闭的 " 内容成品 " 转变为一个可随意念持续演化的 " 数字生命体 " 。
最后,是声画同步。为了追求极致的沉浸感,PixVerse R1 在实现视觉实时生成的同频,还具备了卓越的音画同步能力 。当系统生成 1080P 高清视频时,会根据画面内容实时匹配相应的环境音效——如雨天的滴答声或风拂过树梢的沙沙声 。这种视听一体化的呈现方式,不仅极大地提升了内容创作的电影质感,更让用户得以身临其境地构建出一个完整的、物理逻辑合理的视听世界 。
PixVerse R1 的发布,不仅是视频生成技术模型上的突破,更标志着一种新媒介形态的诞生——视频不再是封闭的 " 内容成品 ",而是可交互、可延续、可共同演进的数字世界。

PixVerse R1 的横空出世,并非源于单一算法的微调,而是一场系统性的架构革命。爱诗科技将其自研的技术体系命名为 " 实时交互世界引擎 ",通过三大底层技术的深度协同,彻底打破了传统视频生成的性能瓶颈。

在此基础上,自回归流式生成机制(Consistent Infinite Streaming via Autoregressive Mechanism)解决了长时序一致性这一行业难题。通过引入记忆增强注意力模块,可生成任意长度的视频内容,并长期维持角色身份、物体状态与环境逻辑的一致性。用户不再受限于几秒片段,而能在生成过程中随时插入新指令,系统即时响应并动态调整叙事,实现真正的 " 流式交互 "。画面突变、逻辑断裂等传统生成痛点,由此成为历史。
而让这一切 " 实时 " 成为可能的,是创造性的瞬时响应引擎(Instant Response Engine —— IRE)。IRE 通过时间轨迹折叠、引导校正和自适应稀疏采样三大创新,将传统扩散模型所需的 50+ 采样步数压缩至惊人的 1 – 4 步,计算效率提升数百倍,让动态画面进入人眼可感知的 " 即时 " 响应阈值。不仅可以支撑高并发 API 服务,更为未来终端设备部署铺平道路。
三大核心技术环环相扣:Omni 提供现实世界的" 计算基座 ",自回归流式生成机制赋予其" 持久记忆 ",IRE 则注入即时反应的" 神经反射 "。它们共同构成了 PixVerse-R1 这一全球首个支持 1080P 实时生成的通用视频大模型,也正式开启了 " 视频即交互、世界可共创 " 的新范式。
从 " 看视频 " 到 " 玩视频 "
爱诗科技创始人兼 CEO 王长虎指出,PixVerse R1 不仅仅是一个生成工具,它代表着一种全新的媒体形式 。在这一范式下,视频不再是固化的 " 内容成品 ",而是演变为一个 " 可交互的数字世界计算基础设施 " 。这种转变彻底模糊了创作与消费的边界,让视频消费者同时成为创作者,在观看的同时即可即时调整并重塑内容 。
传统的游戏场景高度依赖预设脚本,交互边界受限。PixVerse R1 的实时生成能力,使得非玩家角色(NPC)与游戏环境能够根据玩家的意图和操作进行实时演化 。这意味着每一个玩家在游戏世界中的物理交互与对话,都能即时触发符合逻辑的环境变化,让 " 开放世界 " 真正实现动态的自由度 。
在影视与娱乐领域,PixVerse R1 将 " 观看 " 升级为 " 塑造 "。观众不再是被动地接收影像,而是可以通过语音、手势等交互方式,实时改写电影的剧情走向或画面风格 。这种 " 所想即所现 " 的特性,将催生出全新的互动电影、AI 原生互动综艺等业态,让叙事权真正回归到每一个受众手中 。
除了娱乐领域,PixVerse R1 的应用边界延伸至更广阔的生产力场景。在科研实验与场景推演中,它能提供实时且符合物理规律的视觉演化模拟 ;在电商直播中,它能实现实时的产品模拟与背景重塑,极大提升了消费者的沉浸式交互体验 。从经典影像的即时重制到复杂的场景模拟,PixVerse R1 正在构建一个 " 视频即交互、世界可共创 " 的新未来 。
顶尖团队与资本护航
从 " 抖音视觉推手 " 到 " 世界模型构建者 " 爱诗科技的快速崛起离不开其深厚的技术基因。创始人兼 CEO 王长虎博士拥有近 20 年的 AI 研究经验,曾任字节跳动 AI Lab 总监及视觉技术负责人。他曾完整参与并主导了抖音及 TikTok 从 0 到 1 的视觉技术体系建设。这种将顶尖技术转化为国民级产品的能力,被注入到了 PixVerse 的血液中,使其在产品上线之初便具备了极强的爆发力与用户洞察。
自 2023 年 4 月成立以来,爱诗科技不仅在技术上完成了从 V1 到 R1 的跨代进化,在商业化道路上也展现出了惊人的 " 爱诗速度 "。目前,其全球用户量已正式突破 1 亿大关,月活跃用户(MAU)超过 1600 万,其年度经常性收入(ARR)已跨越 4000 万美元。通过其开放平台 API,全球已有超过 100 家合作伙伴接入,累计生成视频超千万个。从 B 端广告、游戏素材生产到 C 端创意消费,爱诗科技正稳步构建起一个可持续增长的视频 AI 生态闭环。
同时,也收获了资本的押注。2025 年 9 月,公司宣布完成超过 6000 万美元的 B 轮融资,由阿里巴巴领投,达晨财智、深创投、北京市人工智能产业投资基金、巨人网络、Antler 等机构跟投。随后在 10 月,公司再度斩获超过 1 亿元人民币的 B+ 轮融资。这些资金不仅为 PixVerse R1 这种耗费巨大算力的实时模型研发提供了充足弹药,更标志着爱诗科技成为了阿里大模型投资版图中至关重要的 " 视频模型之眼 "。
王长虎博士曾表示,AI 视频生成赛道注定会孵化出 " 下一个国民级产品 "。随着 PixVerse R1 实时世界模型的发布,爱诗科技已不再满足于做一个 " 生成工具 ",而是向着 "AGI 时代视听基础设施 " 的目标全力冲刺。在 1 亿用户与顶级资本的托举下,这场关于 " 实时交互世界 " 的长跑,才刚刚开始。
更多对全球市场、跨国公司和中国经济的深度分析与独家洞察,欢迎访问 Barron's 巴伦中文网官方网站