2026 年 6 月 1 日,台北流行音乐中心。黄仁勋再次穿着那件标志性的皮衣走上舞台,带来了可能是个人电脑诞生 40 年来最具颠覆性的一场发布会。

这一次,英伟达发布的不是一张新显卡,而是一颗重新定义了「什么是 PC」的超级芯片——RTX Spark。同时亮相的还有专门为 AI Agent 设计的服务器 CPU Vera、面向 Agent 时代的 Windows 安全架构,以及一个重要的产业判断:「Token 即资产」

◆ ◇ ◆

一、RTX Spark:一颗芯片,统一一切

1.1 为什么我们需要一颗新芯片?

过去四十年,PC 的底层架构几乎没有变过:一颗 x86 CPU,一张独立显卡,各自带着自己的内存,通过一条 PCIe 通道勉强连在一起。这套架构在设计之初从未考虑过「在本地运行大模型」这件事。

问题出在内存分裂上。传统 PC 中,CPU 有自己的系统内存(RAM),GPU 有自己的显存(VRAM)。GPU 读取自己的显存时,带宽可以达到 1TB/s 级别;但一旦模型太大、显存放不下,需要把部分权重放在系统内存中,GPU 就得通过 PCIe 通道去读取——而 PCIe 4.0 x16 的单向带宽只有约 32GB/s

差了整整三十倍。这就是为什么即使你有一台 64GB 内存 + RTX 5080(16GB 显存)的高配电脑,也跑不动一个量化后的 70B 大模型。

传统 PC 架构(内存分裂) CPU 系统内存 (RAM) 64GB · 慢 GPU 显存 (VRAM) 16GB · 快 PCIe 32GB/s 模型 > 16GB 即溢出到慢通道 速度骤降 30 倍,基本不可用 RTX Spark 统一内存架构 RTX Spark 超级芯片 CPU + GPU + NPU 封装于一体 统一内存 (Unified Memory) 128GB · CPU/GPU 共享 · 273GB/s NVLink-C2C 互联 · 600GB/s 模型直接占用统一内存全部可用空间 120B 模型本地流畅运行
▲ 传统分立内存 vs RTX Spark 统一内存架构对比

1.2 RTX Spark 硬件规格

RTX Spark 基于与去年 DGX Spark 相同的 GB10 芯片平台,但在消费级产品上做了全面优化:

参数规格
CPUNVIDIA Grace CPU,20 核 ARM,联发科联合定制
GPUBlackwell RTX,48 SM / 6144 CUDA 核心 + 第五代 Tensor Core
AI 算力最高 1 Petaflop(FP4),约 1000 TOPS
统一内存最高 128GB LPDDR5X,273 GB/s 带宽
芯片互联NVLink-C2C,CPU-GPU 带宽 600 GB/s
能效笔记本最薄 14mm,重约 1.36kg,全天续航
上市时间2026 年秋季,戴尔、联想、惠普等首批搭载
NVIDIA RTX Spark 超级芯片
▲ NVIDIA RTX Spark 超级芯片(来源:NVIDIA 官方)

黄仁勋在现场做了两个令人印象深刻的演示:在一台厚度仅 14mm、未插电的 RTX Spark 笔记本上,实时渲染一个 90GB 的 3D 场景,同时编辑 12K 分辨率的视频。这种在传统轻薄本上完全不可想象的工作负载,在统一内存架构下变成了现实。

1.3 CUDA:真正的护城河

你可能会问:苹果的 M 系列芯片早就用上统一内存了,为什么大家还在等英伟达?

答案只有一个词:CUDA

CUDA 不只是显卡驱动,它是整个 AI 工程界的「母语」。经过近二十年的打磨,CUDA 生态涵盖了:

  • 底层计算库:cuBLAS(线性代数)、cuDNN(深度学习基础运算)、TensorRT(推理优化)、NCCL(多卡通信)
  • 关键算法适配:FlashAttention 等前沿优化,CUDA 路线始终是第一个获得支持的
  • CUDA-X 加速库:横跨科学计算、工程仿真、芯片设计、基因组学等数十个垂直领域
  • 框架生态:PyTorch、TensorFlow、JAX 等所有主流深度学习框架,默认且优先支持 CUDA

相比之下,苹果的统一内存虽然硬件上优秀,但 GPU 用的是 Metal,机器学习框架是 MLX。社区里绝大部分开源模型、训练代码、微调工具都是先在 CUDA 上做好,然后才有人慢慢移植到 MLX。推理还好说,训练和微调在 Apple 生态上至今薄弱。

RTX Spark 是历史上第一次,把统一内存的硬件优势和 CUDA 的生态优势同时装进了一台消费级 PC。在此之前,这两件事是不可兼得的。

Adobe 等专业软件全面适配 RTX Spark
▲ Adobe Photoshop、Premiere 等已针对 RTX Spark 重新设计底层架构(来源:微软 Windows 博客)
◆ ◇ ◆

二、为 Agent 而生的安全架构

光有硬件还不够。黄仁勋和微软 CEO 纳德拉达成了一个共识:Agent 大规模普及的真正障碍,不是算力不够,而是用户无法在自己的主力 PC 上安全、私密地运行 Agent。

为此,英伟达和微软联手打造了一套三层 Agent 运行栈:

第三层 安全运行环境 Windows Security Primitives(身份认证 · 隔离防护 · 策略管控) + NVIDIA OpenShell(Agent 运行时安全框架) ▲ Agent 请求经过安全层验证 第二层 操作系统 Windows on ARM · 为 Agent 时代重构 · 原生支持本地 Agent 运行 ▲ 操作系统调度硬件资源 第一层 硬件基础 RTX Spark 超级芯片 · 最高 1P FLOP AI 算力 · 128GB 统一内存 🛡 🖥
▲ RTX Spark + Windows Agent 三层运行栈

这套架构的核心思路是:敏感数据和核心代码永远不离开设备。Agent 在本地完成推理和任务执行,安全框架确保它始终在用户的完全控制之下运行。这对企业场景来说,意味着数据隐私、合规性、低延迟三个需求被一次性满足。

🏠 Hermes Agent 被英伟达官方点名

在 NVIDIA 官方新闻稿和微软 Windows 博客中,Hermes Agent 与 OpenClaw 一起被列为首批接入 RTX Spark + Windows 新安全栈的领先 Agent 框架。这意味着 Hermes 社区已经站在了「Agent PC」生态的第一梯队。

◆ ◇ ◆

三、Vera CPU:不是给人用的 CPU

如果说 RTX Spark 是面向消费者的「甜点」,那么 Vera CPU 就是英伟达面向服务器市场的重拳。

黄仁勋在演讲中打了一个比喻:GPU 是一个乐团,CPU 就是指挥家。乐团想要演奏出好音乐,指挥的手速必须跟得上。而现在,随着 Claude Code、OpenClaw、Hermes Agent 等 Agent 工具的爆发,CPU 干活的速度已经满足不了 GPU 了。

Agent 的工作流本质上是一种「连环交替」模式:GPU 推理一段 → CPU 去搜集信息 → GPU 再推理一段 → CPU 再去调用工具……如果 CPU 性能不够,GPU 就会在原地空等。老黄直言:「现在的 CPU 已经成了 GPU 利用率的瓶颈。

Vera 的设计哲学

传统服务器 CPU 由多个小芯片拼装而成(chiplet 设计),好处是良率高、成本低,坏处是核心之间的通信需要绕路。Vera 反其道而行之:

  • 单芯片 88 核:所有核心做在同一块芯片上,跨核通信延迟降低 50%
  • NVLink 直连:CPU 和 GPU 之间通过 NVLink 高速互联,不走传统总线
  • CPU-to-CPU 直连:两枚 Vera CPU 之间也能通过 NVLink 直接通信

实测数据非常夸张:Starburst SQL 分析基准测试中,Vera 的运行速度是 x86 CPU 的 3 倍;纽约证券交易所实时流测试中,计算延迟被压缩到原来的 六分之一

◆ ◇ ◆

四、Token 即资产:代理式 AI 的商业逻辑

除了硬件,黄仁勋这次还抛出了一个重要的产业判断:「Token 就是资产,Token 已经成为获利的营收单位。」

4.1 AI 不是在抢工作

老黄用一组 GitHub 数据回应了「AI 减少就业」的论调:

年份GitHub 代码提交量
2023 年约 3 亿次
2026 年初约 9 亿次(近 3 倍)

背后的逻辑是:同样 3 万亿美元的工程师薪酬投入,在 Agent 的放大效应下,现在能产出接近 9 万亿美元的生产力价值。AI 不是在替代人,而是在指数级放大每个工程师的产出

4.2 中国市场的爆发

中国的 AI 应用增速尤其惊人:

时间中国日均 Token 调用量
2024 年初1000 亿
2026 年 3 月140 万亿

两年增长超千倍。2026 年 3 月,中国 AI 大模型周 Token 调用量连续三周超越美国,成为全球 AI 应用活跃度最高的国家之一。

4.3 商业模式的重构

红杉资本在近期的报告中将新一代 AI 公司描述为「披着服务商外衣的 Agent 公司」——它们的核心价值不再是卖软件或收订阅费,而是通过 Agent 为用户完成任务,按实际消耗的 Token 计费。人机交互的方式发生了根本性转变:人类从「操作者」变成了「管理者」,AI 从「被动响应的工具」变成了「自主决策的执行者」。

黄仁勋总结道:

「我们过去是启动一个 APP,点击然后输入指令。我们现在将其替换成直接向 AI 解释我们的需求和意图,然后 AI 自动生成代码或使用工具,并产出所需的结果。这就是未来电脑的运作方式,这就是 Agentic AI。过去两年我们一直为了这个目标努力,而现在,这个目标已经实现了。」
◆ ◇ ◆

五、AI PC 市场:从尝鲜到主流

RTX Spark 的发布,恰好踩在 AI PC 从「小众尝鲜」跨入「主流换代」的时间节点上:

机构2026 全球预测2026 中国预测
Gartner出货 1.431 亿台,渗透率 54.7%
IDC出货 2200 万台,渗透率 52%,同比增长 146.5%

这是 AI PC 渗透率首次突破 50% 大关。可以说,2026 年是 AI PC 真正走入大众市场的元年

游戏方面,RTX Spark 也给出了令人放心的答案。微软与 Epic Easy Anti-Cheat、BattlEye 等反作弊系统厂商进行了底层深度合作,解决了 ARM 架构运行网络游戏的历史痛点。《英雄联盟》《VALORANT》《PUBG》等电竞游戏以及《Alan Wake 2》等 3A 大作均已确认兼容。

黄仁勋更是宣布了直到 2030 年的技术路线图:现在是 Blackwell Spark,未来将是 Rubin Spark 和 Rosa Feynman Spark。RTX Spark 这条路,老黄是做好了打持久战的心理准备。

◆ ◇ ◆

六、结语:PC 的新时代,真的来了

回顾整场 GTC Taipei 2026,英伟达发布的不是一张新显卡、一颗新 CPU,而是一整套从硬件到操作系统到安全框架的完整计算范式

  1. RTX Spark 用统一内存 + CUDA 解决了「本地跑大模型」的硬件瓶颈
  2. Windows + OpenShell 安全栈解决了「Agent 安全可控」的信任问题
  3. Vera CPU 解决了「Agent 时代 GPU 等 CPU」的服务器瓶颈
  4. Token 资产化 为 Agent 服务提供了可持续的商业模型

黄仁勋在演讲结尾说了一句话:

「A New Line, A New Beginning. 这就是个人电脑的新时代。它不止是为你设计的,还是为 Agent 所设计的。不止兼容着过去,还带着过去,走进了下一个未来。」

从 1981 年 IBM PC 诞生,到 2026 年 RTX Spark 问世,个人电脑花了四十五年。这一次,不是修修补补的升级,而是底层架构的彻底重构。对于开发者、创作者、以及每一个正在构建 Agent 的人来说,最好的时代,刚刚开始。