爱诗科技正式发布 PixVerse R1，全球首个实时 AI 视频模型，所见即所得，画面秒出

如果说 2024 年是视频生成比拼 " 画质 " 与 " 时长 " 的一年，那么 2026 年初的这场发布会则宣告了规则的彻底改变。

1 月 13 日晚，爱诗科技正式发布 PixVerse R1 ——全球首个支持 1080P 分辨率的通用实时世界模型。这不仅是生成速度的提升，更是 AIGC 从 " 预录制 " 向 " 实时动态生成 " 的范式转移。

从 " 异步渲染 " 到 " 即时反馈 " 的范式转移

在传统的 AI 视频制作流程中，开发者与创作之间始终隔着一道 " 时间的鸿沟 "：用户输入提示词后，往往需要经历数分钟甚至更久的后台渲染，这种长时延迟带来的 " 异步 " 体验，不仅打断了创意的连续性，更让视频生成更像是一种 " 开盲盒 " 式的离线任务。

PixVerse R1 的发布，宣告了视频创作正式告别 " 等待时代 "。它通过三个维度的深度重构，将视频从冰冷的 " 成品文件 " 转化为一个活生生的 " 交互世界 "：

首先，响应速度。PixVerse R1 首次将视频生成的延迟从行业普遍的 " 秒级 " 乃至 " 分钟级 " 直接拉降至人眼感知的 " 瞬时 " 阈值。通过其核心的瞬时响应引擎（IRE），R1 实现了类似人类自然谈话般的实时反馈，让 " 所想即所见、所说即所现 " 不再是口号，而成为触手可得的交互现实。

其次，是创作逻辑从 " 预设 " 转向 " 实时共演 "。不同于传统模型一次性输出固定时长的短片，PixVerse R1 引入了革命性的流式生成机制。这意味着用户可以在视频生成的任何时刻，像 " 导演 " 在拍摄现场实时喊话一样插入新指令。例如，当画面中正展现 " 一只猫跳上窗台 " 时，用户若即兴补充 " 让天空变成黄昏 "，画面无需重新推倒重来，而是在约 0.5 秒内实现光影与色调的自然平滑过渡。这种动态调整的能力，让视频从封闭的 " 内容成品 " 转变为一个可随意念持续演化的 " 数字生命体 " 。

最后，是声画同步。为了追求极致的沉浸感，PixVerse R1 在实现视觉实时生成的同频，还具备了卓越的音画同步能力。当系统生成 1080P 高清视频时，会根据画面内容实时匹配相应的环境音效——如雨天的滴答声或风拂过树梢的沙沙声。这种视听一体化的呈现方式，不仅极大地提升了内容创作的电影质感，更让用户得以身临其境地构建出一个完整的、物理逻辑合理的视听世界。

PixVerse R1 的发布，不仅是视频生成技术模型上的突破，更标志着一种新媒介形态的诞生——视频不再是封闭的 " 内容成品 "，而是可交互、可延续、可共同演进的数字世界。

拆解三大技术支柱

PixVerse R1 的横空出世，并非源于单一算法的微调，而是一场系统性的架构革命。爱诗科技将其自研的技术体系命名为 " 实时交互世界引擎 "，通过三大底层技术的深度协同，彻底打破了传统视频生成的性能瓶颈。

Omni 原生多模态基础模型（Native Multimodal Foundation Model）打破了传统多模态系统 " 拼接式 " 处理的局限。它采用 Transformer 架构，具有高扩展性，模型统一 Token 流架构（stream of tokens），将文本、图像、音频与视频融合为单一生成序列，实现真正端到端的跨模态理解与输出。更为关键的是，模型全程在原生分辨率下训练，避免了上采样带来的模糊与伪影。通过 scaleup 训练，使光影变化、物体运动与物理交互具备一致性和真实感。这意味着，AI 不再只是 " 画图 "，而是在模拟一个符合现实场景的世界。

在此基础上，自回归流式生成机制（Consistent Infinite Streaming via Autoregressive Mechanism）解决了长时序一致性这一行业难题。通过引入记忆增强注意力模块，可生成任意长度的视频内容，并长期维持角色身份、物体状态与环境逻辑的一致性。用户不再受限于几秒片段，而能在生成过程中随时插入新指令，系统即时响应并动态调整叙事，实现真正的 " 流式交互 "。画面突变、逻辑断裂等传统生成痛点，由此成为历史。

而让这一切 " 实时 " 成为可能的，是创造性的瞬时响应引擎（Instant Response Engine —— IRE）。IRE 通过时间轨迹折叠、引导校正和自适应稀疏采样三大创新，将传统扩散模型所需的 50+ 采样步数压缩至惊人的 1 – 4 步，计算效率提升数百倍，让动态画面进入人眼可感知的 " 即时 " 响应阈值。不仅可以支撑高并发 API 服务，更为未来终端设备部署铺平道路。

三大核心技术环环相扣：Omni 提供现实世界的" 计算基座 "，自回归流式生成机制赋予其" 持久记忆 "，IRE 则注入即时反应的" 神经反射 "。它们共同构成了 PixVerse-R1 这一全球首个支持 1080P 实时生成的通用视频大模型，也正式开启了 " 视频即交互、世界可共创 " 的新范式。

从 " 看视频 " 到 " 玩视频 "

爱诗科技创始人兼 CEO 王长虎指出，PixVerse R1 不仅仅是一个生成工具，它代表着一种全新的媒体形式。在这一范式下，视频不再是固化的 " 内容成品 "，而是演变为一个 " 可交互的数字世界计算基础设施 " 。这种转变彻底模糊了创作与消费的边界，让视频消费者同时成为创作者，在观看的同时即可即时调整并重塑内容。

传统的游戏场景高度依赖预设脚本，交互边界受限。PixVerse R1 的实时生成能力，使得非玩家角色（NPC）与游戏环境能够根据玩家的意图和操作进行实时演化。这意味着每一个玩家在游戏世界中的物理交互与对话，都能即时触发符合逻辑的环境变化，让 " 开放世界 " 真正实现动态的自由度。

在影视与娱乐领域，PixVerse R1 将 " 观看 " 升级为 " 塑造 "。观众不再是被动地接收影像，而是可以通过语音、手势等交互方式，实时改写电影的剧情走向或画面风格。这种 " 所想即所现 " 的特性，将催生出全新的互动电影、AI 原生互动综艺等业态，让叙事权真正回归到每一个受众手中。

除了娱乐领域，PixVerse R1 的应用边界延伸至更广阔的生产力场景。在科研实验与场景推演中，它能提供实时且符合物理规律的视觉演化模拟；在电商直播中，它能实现实时的产品模拟与背景重塑，极大提升了消费者的沉浸式交互体验。从经典影像的即时重制到复杂的场景模拟，PixVerse R1 正在构建一个 " 视频即交互、世界可共创 " 的新未来。

顶尖团队与资本护航

从 " 抖音视觉推手 " 到 " 世界模型构建者 " 爱诗科技的快速崛起离不开其深厚的技术基因。创始人兼 CEO 王长虎博士拥有近 20 年的 AI 研究经验，曾任字节跳动 AI Lab 总监及视觉技术负责人。他曾完整参与并主导了抖音及 TikTok 从 0 到 1 的视觉技术体系建设。这种将顶尖技术转化为国民级产品的能力，被注入到了 PixVerse 的血液中，使其在产品上线之初便具备了极强的爆发力与用户洞察。

自 2023 年 4 月成立以来，爱诗科技不仅在技术上完成了从 V1 到 R1 的跨代进化，在商业化道路上也展现出了惊人的 " 爱诗速度 "。目前，其全球用户量已正式突破 1 亿大关，月活跃用户（MAU）超过 1600 万，其年度经常性收入（ARR）已跨越 4000 万美元。通过其开放平台 API，全球已有超过 100 家合作伙伴接入，累计生成视频超千万个。从 B 端广告、游戏素材生产到 C 端创意消费，爱诗科技正稳步构建起一个可持续增长的视频 AI 生态闭环。

同时，也收获了资本的押注。2025 年 9 月，公司宣布完成超过 6000 万美元的 B 轮融资，由阿里巴巴领投，达晨财智、深创投、北京市人工智能产业投资基金、巨人网络、Antler 等机构跟投。随后在 10 月，公司再度斩获超过 1 亿元人民币的 B+ 轮融资。这些资金不仅为 PixVerse R1 这种耗费巨大算力的实时模型研发提供了充足弹药，更标志着爱诗科技成为了阿里大模型投资版图中至关重要的 " 视频模型之眼 "。

王长虎博士曾表示，AI 视频生成赛道注定会孵化出 " 下一个国民级产品 "。随着 PixVerse R1 实时世界模型的发布，爱诗科技已不再满足于做一个 " 生成工具 "，而是向着 "AGI 时代视听基础设施 " 的目标全力冲刺。在 1 亿用户与顶级资本的托举下，这场关于 " 实时交互世界 " 的长跑，才刚刚开始。

更多对全球市场、跨国公司和中国经济的深度分析与独家洞察，欢迎访问 Barron's 巴伦中文网官方网站

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

爱诗科技正式发布 PixVerse R1，全球首个实时 AI 视频模型，所见即所得，画面秒出

宙世代

一起剪

相关阅读

首个基于国产芯片训练 智谱与华为开源多模态SOTA模型

郭明錤分析苹果AI战略：与谷歌合作是解决燃眉之急

死了么APP宣布改名！创始人回应Demumu名字由来

未满24岁是低龄用户 宁夏联通办卡新规惹争议

智谱联合华为开源图像生成模型 GLM-Image

华为Pura 90 Ultra外观出炉：横向大矩阵镜组设计 辨识度拉满

存储芯片大涨 华为逆势降价！MatePad Edge 512GB官降500：5999元吃上国补

问界百万辆交付速成背后：三年半采购华为750亿元

苹果谷歌AI联姻 分析师：有两大原因迫使苹果这么做

正式落地！美国政府批准向中国出口英伟达H200芯片；死了么APP官宣改名！启用全球化品牌名Demumu；立讯精密：终止收购印度闻泰资产

颖儿：真诚的表演和专业的价值永远有市场

美国放宽对英伟达H200芯片出口中国的管制

对话王小川：“语言才是中轴，多模态不是主战场”

美国逼迫台积电追加1000亿美元投资内幕曝光：指控全男工程师违法

瑞银大中华研讨会：识变局，谋增长，关注中国高质量增长转型新机遇

最新评论

钛媒体

热门推荐

首个基于国产芯片训练智谱与华为开源多模态SOTA模型

未满24岁是低龄用户宁夏联通办卡新规惹争议

华为Pura 90 Ultra外观出炉：横向大矩阵镜组设计辨识度拉满

存储芯片大涨华为逆势降价！MatePad Edge 512GB官降500：5999元吃上国补

苹果谷歌AI联姻分析师：有两大原因迫使苹果这么做