近期,关于H20芯片的讨论异常热烈。这款原本并不在消费市场亮相的“特供”GPU芯片,突然成为中美科技博弈中的焦点,

不仅因为它是英伟达目前唯一可以合法向中国出口的AI芯片,更因为它所体现的“性能阉割与出口许可”之间微妙的权衡逻辑,首次如此清晰地呈现在公众视野中。

对大众而言,芯片是个既熟悉又陌生的名词。我们知道它是智能手机、大模型、AI服务器的大脑,却对它的架构、性能、以及出口限制背后的逻辑一知半解。

今天,我们就以H20芯片为切入口,读懂:

GPU是干什么的?为什么它重要?

在讲H20之前,我们先来弄明白它的“出身”——GPU。

GPU,全称Graphics Processing Unit,中文叫图形处理器。起初它是为了处理游戏图像、3D建模而生的“显卡大脑”,

但现在,它的应用早已超越图形渲染,成为人工智能、深度学习、大数据计算的核心算力引擎。

如果说CPU是一名全能多面手,能做很多事,但一次只能干一两件;那么GPU就像一位擅长“批量处理”的流水线工人,可以同时处理成百上千个数据任务,特别擅长并行计算。

正因为训练AI模型(比如Deepseek、图像识别、自动驾驶)需要海量数据并行运算,所以GPU成为了AI芯片的绝对主角

图片来源:英伟达官网


H20的前世今生

H20并非英伟达从头定制的全新芯片,它实际上是基于H100架构改造而来的产品。

GH100 Full GPU with 144 SMs 图片来源:英伟达官网

H100本身是基于“Hopper架构”,是专为中国市场设计的新一代高性能GPU,也是英伟达当前最先进的数据中心AI加速芯片,

拥有高达80GB HBM3显存,并支持全新的Transformer Engine和FP8精度计算,是ChatGPT、Stable Diffusion等大模型训练的主力军。

相比于H100,H20的关键指标做了一些缩水

指标
H100
H20
架构
Hopper
Hopper
显存
80GB HBM3
96GB HBM3
显存带宽
3.35 TB/s
1.5 TB/s
NVLink带宽
900 GB/s
300 GB/s
FP8算力
FP8≈1980(启用稀疏可达3960)
296 TFLOPS
GPU间互联
NVLink
PCIe Gen4

数据来源:NVIDIA官网、各芯片规格手册和公开分析资料整理

FP8算力(TFLOPS)指GPU每秒可执行的8位浮点运算次数。H20的296 TFLOPS代表其每秒可执行296万亿次8位浮点运算

可以看出,H20的FP8算力性能相比H100下降了近70%,带宽砍半以上,是一款妥协式的“合规芯片”。

H20通过大幅降低带宽、互联性能、限制通信速率,控制整体算力密度,也就是说,H20是在“堪用”与“可卖”之间精准平衡的产物。

为了更直观地了解近年来英伟达对华出口芯片型号及规格,我们做了一张对比图:

芯片型号
架构
显存
NVLink带宽
FP8性能
发布时间
是否可对华出口
A100
Ampere
40/80GB HBM2e
600 GB/s
312 TFLOPS
2020
❌(已禁)
H100
Hopper
80GB HBM3
900 GB/s
FP8≈1980(启用稀疏可达3960)
2022
❌(已禁)
A800
Ampere
80GB HBM2e
600 GB/s
623TFLOPS
2022
❌(2023后禁)
H800
Hopper
80GB HBM3
600 GB/s
700TFLOPS
2023
❌(2023后禁)
H20
Hopper
96GB HBM3
300 GB/s
296 TFLOPS
2024
✅(当前允许)

数据来源:NVIDIA官网、各芯片规格手册和公开分析资料整理


为什么说H20是“特供版”?

从 2022 年起,美国商务部陆续更新 AI 芯片出口限制规则,到了 2023 年 10 月正式进入硬门槛阶段,将判断标准分为以下三项(依据 ECCN 3A090.a 法规):

  1. TPP ≥ 4800 ➜ 禁止出口

  2. TPP ≥ 1600 且 性能密度 ≥ 5.92 ➜ 禁止出口

3. 互联带宽(如 NVLink)不得超过 600 GB/s ➜ 超标亦需特别许可

指标
含义
单位
TPP
基于理论 FP8 或 INT8 算力 × 位长 × 2
性能密度
TPP ÷ Die 面积(mm²)
互联带宽
芯片间通信带宽(如 NVLink)
GB/s

NVIDIA官网及SemiAnalysis等业内公开的芯片数据推算可得:

芯片型号
计算性能(FP8)
Die 面积(mm²)
TPP 估算
性能密度
NVLink 带宽
是否可出口
H100
≈1980 TFLOPS
≈814 
≈31,680
≈38.9
>900 GB/s
❌ 禁售
H800
≈700 TFLOPS
≈814 
≈5,600
≈6.88
≈600 GB/s
⚠️ 限制中
H20
≈500 TFLOPS
≈814 
≈4,000
≈4.91
≈300 GB/s
✅ 可出口

这就解释了:为什么H20能出口,而H100、H800不能。

H20性能“阉割”到什么程度?和H100差距多大?

很多人关心:H20到底被“阉割”到什么程度?在性能上是否够用?我们可以从AI大模型训练时间和FP8计算性能这两个维度,来直观看出差距。

根据Reddit/GPT3 社区提供的ChatGPT模型训练数据,使用 1024 张 A100(312 TFLOPS) 并行训练,可将总耗时压缩到 34 天

“Using 1,024 A100 GPUs, researchers calculated that OpenAI could have trained GPT‑3 in as little as 34 days.”

1)按照A100的实测数据,我们不难估算其他芯片的训练时间:

芯片型号
训练 GPT‑3 估算时间
所需 GPU 数量
数据来源 / 说明
A100
约 34 天
1024 张
Reddit 社区
H100
约 20~25 天
700+ 张
对比A100性能估算
H800
约 45~50 天
1300+ 张
对比A100性能估算
H20
约 60 天以上
1500~1800 张
对比A100性能估算

图片来源:作者自绘

2)通用 AI 算力(FP8 吞吐性能)

根据 NVIDIA 官方参数和公开报道,我们也可以大致估算各芯片在 FP8 精度下的 AI 吞吐能力:

芯片型号
FP8 理论性能
相对性能
H100
1980 TFLOPS
100%
H800
约 700 TFLOPS
35%~40%
H20
约 296 TFLOPS
15%

虽然H20仍有一定AI训练能力,但已不再适合构建最顶级的AI训练集群,更多用于AI推理、边缘计算、或者中低规模AI模型训练

中国市场由于Deepseek大模型的研发突破,如今大模型更多的从训练转向落地部署和应用,这也是英伟达推H20的市场背景之一。

H20的价值在哪里?

虽然H20被“限速”了,但H20依然是英伟达先进技术栈下的高性能芯片,在当前GPU极度紧缺的背景下,对中国市场仍具有以下优势:

  1. ✅ 合法合规,能正常采购,不用担心“卡脖子”;

  2. ✅ 依然支持Transformer、LLaMA等主流大模型训练与部署

  3. ✅ 价格低于H100,可在AI训练和推理间取得平衡

  4. ✅ 与CUDA生态兼容,方便现有工程迁移

  5. ✅ 搭配国内厂商的AI加速卡和交换方案,依然可以构建AI算力池

简言之,它虽然不是最强的GPU,但可能是“当下能合法买到的最强GPU之一”。

 H20是NVIDIA为中国市场量身打造的AI推理芯片,它在硬件上做出了有针对性的“阉割”与优化:保留了大容量显存和高带宽通道,却大幅降低了计算单位和功耗。
虽然在传统浮点运算力上不敌H100,但符合中国客户需求。同时,由于其总算力和性能密度指标远低于美国出口管制的阈值,H20在技术层面上被认定为合规产品,
因而获得出口许可。未来,随着新一代Blackwell架构的推出,NVIDIA及其竞争对手还将不断调整芯片参数与市场策略,以在政策与技术间寻求平衡。