关于ZAKER Skills 合作
钛媒体 28分钟前

黄仁勋对未来十年的完整判断,今天都讲明白了

文 | 字母 AI

" 计算就是收入、瓦特就是收入、每一个 token 都是收入!"

以上言论,均出自黄仁勋在 GTC 2026 上的演讲。其内容堪称 AI 时代的 " 时间就是金钱 "。

黄仁勋表示,每瓦特产生的 token 越多,收入就越多。

他展示了一组数据,GitHub 上的代码提交量在 2026 年前几个月增加了近三倍,全球 3000 万软件开发者创造的 3 万亿美元薪酬价值正在产生接近 9 万亿美元的生产力。

在这场 GTC 大会上,黄仁勋带来了许多新玩意。

最重磅的无疑是英伟达与微软联手设计的 AI PC,第二样是为 Agent 时代打造的 Vera 及其完整生态,第三样是开源大模型 Nemotron 3 Ultra,第四样是物理 AI Cosmos 3 以及基于它而诞生的参考人形机器人 Isaac。

这些东西串起来,拼成了黄仁勋对未来十年计算模式的完整判断。

重新定义 AI PC

黄仁勋说,微软与英伟达的合作将会重新定义 AI PC 这个概念。

黄仁勋在台上展示了 RTX Spark。

RTX Spark 是一台笔记本电脑,芯片叫 N1X,英伟达和联发科一起做的。里面有 Blackwell RTX GPU,6144 个 CUDA 核心,第五代 Tensor Core,支持 FP4 精度。还有定制的 20 核 Grace CPU,通过 NVLink-C2C 芯片互联连接。配 128GB 统一内存,台积电 3nm 工艺,700 亿个晶体管。

数字生物学、地震处理、天体物理等应用都可以运行。所有与 CUDA 相关的物理、生物学、基因组学、AI、计算机图形应用,以及 Windows 的应用,都可以运行。

这台电脑和传统笔记本最大的区别是,它能在本地跑 Agent。黄仁勋说的 Agent,就是能理解你说的话、能看屏幕、能读文件、能帮你干活的 AI 助手。以前这些 AI 都要连到云端才能用,现在可以直接在你的笔记本上跑。

黄仁勋说,过去 40 年你用电脑是启动应用、点击、输入。现在有了 RTX Spark 和 Windows,你只需要问,电脑就会帮你完成工作。RTX Spark 把英伟达 30 年积累的所有技术,CUDA、RTX、AI 平台,都放进了一颗芯片。本地 Agent、前沿模型、创意工作流、RTX 游戏,全都能在一台笔记本上跑。

这就是黄仁勋手中的个人 AI 电脑。

微软为 RTX Spark 做了深度平台优化。

实现了工作负载配置文件调度,让 Windows 调度器更高效地在所有 20 个核心上扩展工作负载。无论你是在查看邮件还是在本地运行 Agent 调试代码,Windows 调度器都会确保你从 CPU 获得最佳性能和效率。

他们还启用了微软电源和热管理框架,在保持凉爽的同时最大化性能和功率。

为了实现 RTX Spark 上高达 128GB 的内存,微软提高了 GPU 可访问的系统内存上限,让高内存系统上的 GPU 可用内存增加,从而能够加载更大的本地 AI 模型或渲染更复杂的项目。

他们还增强了 Windows 在统一内存系统上管理共享内存区域页面大小的方式,确保在重负载工作负载下有更大的内存页面可用,同时让开发者能够灵活优化 CPU 和 GPU 之间的内存工作负载需求。

微软 CEO 萨提亚 · 纳德拉说,他们的目标是用 Windows 把无限的智能送到每个家庭、每张办公桌。。

OpenClaw 和 Hermes Agent 这些开源 Agent 项目在 GitHub 和 OpenRouter 上的数据已经创了纪录,但一直没能大规模普及,原因是没法在用户的主力电脑上安全、私密地跑 Agent。

英伟达和微软合作解决了这个问题。他们做了新的 Windows 安全原语和英伟达 OpenShell 运行时,确保 Agent 在用户完全掌控下安全运行。

新的 Windows 提供身份、隔离、策略和端到端安全能力,用来原生构建和运行 Agent。

英伟达 OpenShell 提供了一些自定义功能,比如让用户限制 Agent 能做什么,以及不能做什么,根据用户的隐私策略智能地把查询路由到本地模型,在发送到云端模型的查询中隐藏个人信息。

Hermes Agent 和 OpenClaw 在他们的新 Windows 应用里用了这套安全和隐私层。这些应用让用户可以轻松安全地访问设备端 Agent,这些 Agent 能在 Windows 应用里执行任务,推理跨应用工作流,生成图像和视频,写插件和应用代码,语义搜索本地文件。

黄仁勋现场演示了一个在 RTX Spark 上本地运行的 Agent 怎么帮他设计房子。Agent 运行 Open Shell 沙盒,连接 Hermes 编排系统和云端 Claude Sonnet。

它选地点,读概念草图、风格情绪板、文字需求和设计意图。Agent 用笔记本上的工具,打开 Rhino 为场地建模,塑造地形、退界和建筑外壳,提出建筑形式,针对成本、舒适性和质量优化。

形式定好后,Agent 生成内部布局、墙体和流线,房间成形。它随时调整,自动放置门窗和结构元素,自己发现和修正错误。批准后,Agent 从 Rhino 导出模型,导入 Blender,材质和对象属性完整转移。

它调材质,选镜头,Blender 渲染房子。Agent 用 Flux 模型生成多个视角和光照条件。

整个过程全部都由 Agent 自己完成。

这就是黄仁勋说的 " 新的 PC"。以前你用电脑是打开软件、点鼠标、敲键盘。现在你可以直接告诉 Agent 你要干什么,它自己去操作各种软件完成任务。

RTX Spark 不只是为 Agent 设计的,它也是一台完整的创作和游戏电脑。

你可以在上面通过 OptiX 和 DLSS 渲染超大的 90GB 3D 场景,用 Blackwell 解码器编辑 12K 4:2:2 视频,跑 1200 亿参数、100 万 token 上下文的大语言模型,玩 1440p 分辨率、超过 100 帧的 AAA 游戏,支持光线追踪、DLSS 和 Reflex。

RTX Spark 还会支持新的 RTX 能力,包括 DLSS 4.5 光线重建,用第二代 transformer 模型,会出现在 Blender 5.3 和几十款游戏里。还有 RTX Video 4 倍帧生成,会出现在 ComfyUI 里。

RTX Spark 是笔记本。不过黄仁勋也宣布推出桌面和工作站版本 DGX Spark。

768GB 内存,可以跑万亿参数的大模型,20 petaflops 算力,每秒 8TB 内存带宽,放在办公桌上。如果你是大语言模型开发者或 Agent 开发者,可以在本地训练和测试模型,需要部署时再把模型放到云端。

黄仁勋说,想想 15 到 20 年前的电话。今天的手机,打电话不是最常用的功能。手机的意义完全不同了。PC 也会经历类似变化。十年后的 PC 不会只是用来打开软件、点鼠标的工具。

ASUS、Dell、HP、Lenovo、微软 Surface 和 MSI 今年秋季会推出 RTX Spark 驱动的超薄 Windows 笔记本和紧凑型台式 PC,全天候电池续航和优质显示屏。Acer 和 GIGABYTE 的型号随后推出。黄仁勋没说具体价格。

Vera Rubin 和 AI 工厂

随后,黄仁勋宣布,Vera Rubin 已经全面投入生产。

Vera Rubin 是是一套五机架规模的 AI 超级计算机系统,专门为跑 Agent 设计。

第一种是 Vera Rubin NVL72,负责提示理解、上下文处理、推理和规划,这是 Agent 的 " 大脑 "。

第二种是 Vera CPU 机架,单个液冷机架里装 256 颗 Vera CPU,负责协调模型、管理内存、调用工具。

第三种是 Groq 3 LPX 机架,256 个 Groq 3 LPU 横跨 16 个托架,每秒 40PB 的 SRAM 带宽,提供超低延迟的 Token 生成。NVL72 负责高吞吐,Groq LPU 负责低延迟。

第四种是 Vera BlueField-4 STX 存储机架,这是 Agent 保存记忆的地方,负责存储处理、加速和片上安全。

第五种是 NVIDIA Spectrum-X Ethernet CPO 网络机架,配备共封装光学技术的以太网交换机,200Gb/s SerDes,和台积电合作做芯片级封装和超高功率磷化铟激光模块。

Vera Rubin 由七颗新芯片组成。台积电 3nm 制程,CoWoS-L 封装技术,HBM 内存来自 Micron、SK hynix 和 Samsung。一块 Vera Rubin 计算板上有万亿级晶体管和超过 18000 个元件。

整个机架包含 18 个计算托盘、9 个热插拔 NVLink 交换托盘、高效液冷歧管和汇流排。液冷汇流排可以承载超过 5000 安培电流,相当于 20 台电动汽车全速加速时的电流。总共 130 万个元件构成第三代 MGX 机架设计。

和上一代 Grace Blackwell 相比,Vera Rubin 在处理 Agent 任务时的吞吐量提升了 10 倍。

黄仁勋说,他们为 Vera Rubin 创造的供应链规模是 Grace Blackwell 的两倍。

以前组装一个 Grace Blackwell 机架需要两小时,现在 Vera Rubin 只需要五分钟。原因是设计改了。过去机架里有很多线缆和软管,现在用 PCB 中板直接连接两侧,不再需要线缆、软管和风扇。全部液冷,模块化设计,热插拔。

黄仁勋说,以前做 Hopper 时,最重要的工作是预训练。到 Grace Blackwell,重点是推理。

" 很多人说推理很简单,但推理就是钱。"

模型越来越复杂,要在高响应速度、快速交互和高吞吐下同时完成推理很困难。这就是 NVLink 72 的意义。

黄仁勋说,今天英伟达的 token 成本比竞争对手低一个数量级,因为他们做了协同设计,理解了推理的计算模式。

现在到了 Agent 时代,Agent 不只是生成答案,它要观察、推理、规划、用工具,管理大量上下文,处理工作记忆和长期记忆,衍生出专家子 Agent。Vera Rubin 就是为这种工作才诞生的。

Vera Rubin 平台引入了英伟达 Spectrum-X 以太网光子学,这是世界上第一个基于共封装光学技术的交换机,有 200Gb/s SerDes,如今已经投产。

共封装光学是什么?

传统网络交换机用可插拔收发器,收发器插在交换机外面,需要额外的功率、散热和空间。共封装光学把光学模块直接封装在交换机芯片上,和台积电合作做芯片级封装。

这带来三个好处。第一是能效提升 5 倍,因为光学模块和芯片之间的距离缩短了,信号损耗更小。第二是 AI 正常运行时间延长 5 倍,因为减少了可插拔部件的故障点。第三是部署时间缩短三分之一,因为简化了设计,为计算释放了更多功率。

CoreWeave、Lambda 和 Oracle Cloud Infrastructure 是首批采用共封装光学网络的合作伙伴。Lambda 在博客中展示了英伟达首批共封装光学样品的开箱。黄仁勋说,通过简化设计为计算释放更多功率,英伟达共封装光学网络为百万 GPU AI 工厂提供了基础架构。

Vera Rubin 平台还集成了英伟达 BlueField-4 DPU。

BlueField-4 有高达 800Gb/s 速度的软件定义网络和内置多租户隔离。借助英伟达 BlueField-4 Advanced Secure Trusted Resource Architecture,客户可以简化网络操作,改善租户隔离,在百万 GPU AI 集群中获得更大控制。

AI 工厂越来越多地在 Agent 工作流中处理专有数据、受监管内容和关键任务模型。这需要针对共享或云环境中自主 Agent 定制的基础设施安全性,因为基础设施不能被隐式信任。

Vera Rubin 平台设计了全栈英伟达机密计算,用于机架规模的可信执行环境。Vera Rubin NVL72 把 Vera CPU、Rubin GPU、英伟达 NVLink 网络和安全功能结合到统一平台中,在高速互连之间加密数据。这提供硬件级认证,确保系统防篡改。

在 POD 规模提供这种级别的保护还需要可编程软件层,能在整个系统中执行、编排和调整安全策略。英伟达 DOCA 软件平台在每个 Vera Rubin 平台机架和 AI 工厂层提供安全性,通过直接在 BlueField-4 硅中执行的能力保护数据、Agent、上下文内存和 AI 推理。

DOCA 能做什么。它实现多租户网络隔离、零信任策略执行、运行时威胁检测和高达 800Gb/s 速度的端到端加密,这些都不占用主机 CPU 资源,所以企业可以放心扩展 AI 工厂。

英伟达 DSX 平台为 Vera Rubin AI 工厂提供完整的设计和运营基础。DSX 统一了参考设计、仿真、基础设施软件、设施和生态系统技术,帮助构建和运营针对最低 token 成本优化的节能 AI 工厂。

DSX 是什么。黄仁勋说,全球在建设 AI 工厂,这是大规模基础设施建设。AI 工厂复杂度高,芯片、机架、网络、电力、冷却、电网,每一层都必须从端到端一起设计,因为计算就是收入。英伟达 DSX 就是蓝图,是建设和运营 AI 工厂的参考设计,目标是高效率和高盈利能力。

DSX 为 Vera Rubin POD 架构构建,对齐堆栈的每一层,从硅和系统到生命周期管理和多租户操作,加快部署,提高规模运营可靠性和弹性。

Dell Technologies、HPE、Lenovo 和 Supermicro 以及 ASUS、Foxconn、GIGABYTE、Pegatron、Quanta Cloud Technology、Wistron 和 Wiwynn 在采用英伟达 DSX 来加速 Vera Rubin 的 AI 工厂建设。

DSX 包含三个部分。第一是 DSX Sim。Omniverse Blueprint 合作伙伴可以在第一台机架到场前就设计并验证一座英伟达 Rubin AI 工厂。他们可以规划布局,模拟电力和冷却,设计网络,在数字孪生中验证每次集成测试和每次变更。第二是 DSX OS。工厂通电后,DSX OS 接管运营,提供监控和修复基础设施,把已安装系统变成多租户、弹性、AI 就绪容量。第三是 DSX Max-Q。

DSX Max-Q 是什么。今天的 AI 工厂常常把电力过度配置 40%,因为担心峰值负载。DSX Max-Q 可以让运营商在相同电力预算下部署更多 GPU。它有几个技术。温液冷却可以在 45 摄氏度下运行,用更少的水和能源,把更多能源留给计算。动态电力分配可以把机架电力导向需要工作的地方,回收闲置瓦特。机架内部的电力平滑机制可以削平峰值电流和电涌。

贯穿整座工厂,AIAgent 工作团队会通过 DSX Max-Q 持续协调,平衡冷却、电力和工作负载需求。DSX AI 工厂还是弹性能量资产,可以和电网协同工作。DSX Flex 能读实时电网信号,在电网需要缓解压力时动态调整工厂电力。

黄仁勋说,到本十年结束前会有 100GW 的 AI 工厂上线。由英伟达 DSX 运营的 AI 工厂会以最高效率生产最低成本的 token。

Vera Rubin 什么时候可以买到。生产出货从今年秋季开始。

黄仁勋说,过去英伟达是一家 GPU 公司。这些年来他们演进成系统公司。现在看到的是英伟达最复杂的系统。

最终客户和合作伙伴不是想买一台计算机,他们想建设 AI 工厂。

正因如此英伟达在再次转型。技术现在延伸到基础设施尺度。

合作伙伴包括发电、冷却、电网供应商和工业基础设施公司。他们在努力构建完整的堆栈,就像为 GPU、Grace Blackwell、NVLink 72 做的那样。现在他们在构建完整的基础设施系统,让客户可以建设 AI 基础设施。

每个千兆瓦级 AI 工厂投入都从 200 亿、300 亿美元开始,很快会达到每千兆瓦 800 亿到 1000 亿美元。1000 亿美元投入 AI 工厂,它必须第一次就能工作,而且必须立刻成功。

资本成本高,复杂度也高。就像设计芯片时会先在计算机里模拟芯片、再模拟整个系统一样,现在也把 AI 工厂建在 Omniverse 里。可以在数字世界里建造这些系统,在现实世界动工前就完成验证。

RTX 是 GPU,DGX 是系统,现在 DSX 是基础设施。

它包括系统和软件,让英伟达能和公司合作,把它们变成 AI 云。比如 CoreWeave,最近它的价值已经达到数百亿美元,在增长。

这些公司服务各自区域,也服务全球客户。AI 会无处不在,每家公司都会由 AI 驱动,每个地区都会建设自己的 AI 能力。它们需要完整的计算栈,硬件、软件、库,还有和第三方生态、第三方开发者连接的能力。

帮客户建设和部署 AI 工厂很重要。原因是计算就是收入,现在计算就是利润。没有收入、没有利润就会变成亏损。黄仁勋说,这就是为什么英伟达是重要伙伴。他们创造完整基础设施,把每件东西连接起来,进行了验证,确保正常运转。

time to first token 更快,推理启动更快,从推理转向训练也更快。每瓦产生的 token 比较多。因为把一切都整合起来,从头设计、模拟整个系统,进行协同设计。可靠性也很重要。大型数据中心有数百万条电缆和无数活动部件,要让这些计算机和谐工作很困难。英伟达长期运行超大规模系统,这些经验很重要。

最后是产品寿命。

几年前 Hopper 时代的 AI 已经和今天完全不同。六年前 Ampere 时代还在谈 CNN,后来谈 Transformer,再后来谈专家混合,现在谈 Agent 系统。每隔几个月软件行业就会出现新技术。

如果架构不灵活,生态系统不丰富,资产寿命就不会长。因为全球软件开发者都在用英伟达 CUDA,所以英伟达 CUDA 生态的资产寿命会更长。也可以从成本的另一面理解,如果资产寿命长,总拥有成本就低。这就是差异。

黄仁勋说,买得越多,赚得越多。

全球的工厂和员工都在拼命工作,因为全世界都想赚钱。大家已经意识到,有用的 AI 到来了,可盈利的 AI 到来了,计算需求高得惊人,需求本身就是限制。

各种大模型

黄仁勋今天还发布了开源大模型 Nemotron 3 Ultra。

Nemotron 是 英伟达为世界构建的专用开源模型,专门为 Agent 工作负载设计。

和其他开源模型不同,Nemotron 不只给你模型,还给你训练模型所用的数据。

Nemotron 针对长时间推理、长时间运行的工具任务、工具使用和任务解决进行训练,是世界上最大的长时程推理模型之一。模型、训练脚本和数据都对你开源。黄仁勋说,这是开源模型的最佳形态,让你可以拿走它,继续添加数据,让它变得更好,并成为你自己的模型。

Nemotron 3 Ultra 主要有三个优势,第一是速度快近五倍。

它是世界上第一批基于混合架构的模型之一,结合了状态空间模型 SSM 与专家混合 MoE。这种架构速度极快。黄仁勋说,更快意味着你能用相同成本思考更久。

第二是降低约 30% 运行成本。

第三是完全开源,包括模型、训练脚本和数据。

那么 Nemotron 3 Ultra 到底是干嘛用的呢?黄仁勋说了这么一个案例。

他说英伟达现在做芯片太复杂了,要靠工程师一行行查、一轮轮跑验证,太慢也太贵。

因为每颗 AI 芯片里有海量的晶体管,每条线路、每个逻辑门都必须严丝合缝,只要一个小错误,就可能让整颗芯片延期几个月。

所以英伟达和 Cadence 做了一个 " 芯片设计 AI 助手团队 "。

这个团队是一组会干活的 Agent。

它能读芯片设计规格,写或修改 RTL 代码,自动生成测试用例,调用 Cadence 的仿真工具 Xcelium 跑模拟,再用 Jasper 做形式化验证。发现 Bug 后,它还能定位问题、改代码、再跑一遍验证。

这里面大概是这样分工:

Codex 像项目经理,负责调度整个流程。

Nemotron 像技术大脑,负责推理、判断、推进验证循环。

Cadence 工具栈像专业仪器,负责真正跑芯片仿真和验证。

Open Shell 像安全沙箱,确保 Agent 在受控环境里工作,不乱改、不乱跑。

一堆专家子 Agent 则分别负责写 RTL、建测试平台、跑回归测试、调试 Bug。

以前芯片验证要工程师手动反复做,周期可能是几周;现在英伟达想让 AI Agent 自动接管一部分流程,把 " 写代码、跑仿真、找 Bug、修 Bug、再验证 " 变成自动循环,把芯片设计验证从几周压到几小时。

与此同时,黄仁勋搬出了英伟达最前沿的物理 AI Cosmos 3。

黄仁勋说,语言模型领域有很多人在做,而在物理 AI 方面,我们绝对是全球最强之一。" 我为我们的团队感到骄傲。"

黄仁勋说:" 对于语言模型,我们可以使用互联网上的英语和各种语言文本训练,因为这些内容来自人类写作和阅读。但要为机器人构建数据,数据必须来自感知,来自机器人的视角。而世界上大多数视频数据都是第三人称视角,不是第一人称视角。因此,对 Agent 系统、机器人系统、物理 AI 来说,数据是最难解决的问题。"

英伟达想解决一个问题:机器人太缺训练数据了。

训练语言模型,可以用互联网上的文字;但训练机器人不一样。机器人要学会走路、抓东西、开车、避障、在工厂里干活,它需要理解真实世界里的空间、动作、物体和物理规律。

可问题是,真实世界的数据很难收集。你不可能让机器人在现实里无限试错,因为太慢、太贵,也可能有危险。

所以黄仁勋的思路是,先让人远程操控机器人,给它做示范。

再用 Omniverse 做仿真,在虚拟世界里生成更多训练场景。

再把普通视频里的第三人称视角,转换成机器人自己的第一人称视角。

最后,用 Cosmos 这种世界模型,让 AI 自己理解和生成物理世界的数据。

Cosmos 可以理解视频里发生了什么,也可以根据文字、图片、视频生成符合物理规律的新视频。比如你给它一个场景,它可以预测下一秒会发生什么;你让它模拟机器人抓杯子,它可以生成这个动作过程;你让它训练自动驾驶,它可以制造各种道路情况。

所以黄仁勋才说 " 计算就是数据 ",以前数据只能从现实世界采集,现在可以用计算生成。只要模型足够强,计算机就能模拟真实世界,给机器人制造大量训练材料。

这对物理 AI 很重要,因为机器人需要的不是会聊天的 AI,而是懂现实世界怎么运转的 AI。

基于此,英伟达做了一个 " 人形机器人标准套件 ",叫 Isaac GR00T。

为什么要做这个?因为做人形机器人太难了。一个机器人身上有很多电机、传感器、控制系统,还要有训练数据、仿真环境、操作系统、AI 模型和部署工具。以前每个研究团队都要从零开始拼这些东西,光搭环境就可能花几个月,真正研究还没开始,人已经累半死。

所以英伟达说:我们直接给大家做一个参考平台。

这个平台不只是一个机器人硬件,而是一整套东西:

有机器人本体;有运行机器人的 Jetson Thor 计算平台;有 AI 模型;有仿真工具 Isaac Lab;有远程操作工具 Isaac Teleop;有 Omniverse 和 Cosmos 来生成合成数据;有训练和评估环境;有 Isaac ROS 负责部署到真实机器人上。

你可以把它理解成机器人界的 " 开发样机 + 操作系统 + 训练工具包 "。

研究者拿到 GR00T 之后,不用从零开始造机器人、搭仿真、接传感器、写底层系统,而是可以直接开始训练机器人做任务。比如让机器人学会抓东西、搬运、走路、在工厂里工作。你可以用英伟达的全套组件,也可以只用其中一部分,把自己的模型、传感器或控制系统换进去。

黄仁勋说它有 25 个身体自由度,每只手 31 个自由度,身高大约 6 英尺,体重 150 磅,就是想说明它是一个接近真人尺寸、能做复杂动作的人形机器人参考设计。

相关标签

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容

企业资讯

查看更多内容