◎NVIDIA GPU参数速查表 | 更新日期:20251129GPU型号产品架构产品形态算力情况,挂*为稀疏值显存显存带宽GPU互联详细参数GB300BlackwellUltra多芯组合,2个B300和1个Grace CPUFP4:30/38.9P*FP8:10/20P*FP16:5/10P*TF32:2.5/5P*576G HBM3e16TB/sNvlink 2x1.8TB/s查看B300BlackwellUltraSXMFP4:15/17.5P?*FP8:4.5/9P*FP16:2.25/4.5P*TF32:1.12/2.25P*FP64:40T288G HBM3e8TB/sNvlink 1.8TB/s查看GB200Blackwell多芯组合,2个B200和1个Grace CPUFP4:20/40P*FP8:10/20P*FP16:5/10P*TF32:2.5/5P*FP64:90T384G HBM3e16TB/sNvlink 2x1.8TB/s查看B200BlackwellSXMFP4:9/18P*FP8:4.5/9P*FP16:2.25/4.5P*TF32:1.12/2.25P*FP64:40T192G HBM3e8TB/sNvlink 1.8TB/s查看B100BlackwellSXMFP16:1.8/3.5P*TF32:0.9/1.8P*FP64:30T192G HBM3e8TB/sNvlink 1.8TB/s查看H20标准款HopperSXMINT8和FP8:296TFP16:148TTF32:59.8T96G HBM34TB/sNVlink 900GB/s查看H20大显存HopperSXMINT8和FP8:296TFP16:148TTF32:59.8T141G HBM3e4.8TB/sNVlink 900GB/sH200HopperSXMFP8和INT8:1/2P*FP16:1/2P*TF32:495/989T*FP64:67T141G HBM3e4.8TB/sNvlink 900GB/s查看RTX 4090AdaPCIeFP16:165T/330T*TF32:82.6/165.2T*源于AutoDL官网24G GDDR6x新增48G1TB/s64GB/s查看RTX 4090DAdaPCIeFP16:147/294T*TF32:73.54/147T*源于AutoDL官网24G GDDR6x1TB/s64GB/s查看RTX 5090BlackwellPCIe 5.0FP16:210T/420T?TF32:108T源自网络,供参考32G GDDR71.8TB/sPCIe 128GB/s查看RTX 5090DBlackwellPCIe 5.0FP16:150/297T*?TF32:未找到源自网络,供参考32G GDDR71.8TB/sPCIe 128GB/s查看H100HopperSXMFP8和INT8:1/2P*FP16:1/2P*TF32:495/989T*FP64:67T80G HBM33.35TB/sNvlink 900GB/s查看H100HopperPCIeFP16:0.8/1.6P*TF32:378/756T*FP64:51T80G HBM32TB/sPCIe 128GB/s查看H800HopperSXMFP16:1/2P*TF32:495/989T*FP64:1T80G HBM33.35TB/sNvlink 400GB/s查看H800HopperPCIeFP16:0.8/1.6P*TF32:378/756T*FP64:0.8T80G HBM32TB/sPCIe 128GB/s查看A100AmpereSXMFP16:0.3/0.6P*TF32:156/312T*FP64:19.5T80GHBM2e2TB/sNvlink 600GB/s查看A100AmperePCIeFP16:0.3/0.6P*TF32:156/312T*FP64:19.5T80GB HBM2e2TB/sPCIe 64GB/s查看A800AmpereSXMFP16:0.3/0.6P*TF32:156/312T*FP64:19.5T80GHBM2e2TB/sNvlink 400GB/s查看A800AmperePCIeFP16:0.3/0.6P*TF32:156/312T*FP64:19.5T80GB HBM2e2TB/sPCIe 64GB/s查看L40SAdaPCIeFP16:366/733T*TF32:181/366*48G GDDR6x864GB/s64GB/s查看L40AdaPCIeFP16:181/362T*TF32:90.5/181*48G GDDR6x864GB/s64GB/s查看L20AdaPCIeFP16:119.5TTF32:59.8T48G GDDR6x864GB/s64GB/s查看A40AmperePCIeFP16:149.7/299.4*
TF32:74.8/149.6*
48G GDDR6x696GB/sNvlink
112GB/s
PCIe
64GB/s
查看L4AdaPCIeFP16:121/242T*TF32:60.5/121*24G GDDR6x300GB/s64GB/s查看L2AdaPCIeFP16:96.5TTF32:48.3T24G GDDR6x300GB/s64GB/s查看V100VoltaPCIeFP16:32.71TFP32:16.35TFP64:8.177T
16/32G HBM21.13TB/sNvlink
300GB/s
PCIe
32GB/s
查看T4
TuringPCIeFP16:65.13TFP32:8.141TFP64:254.4G
16G GDDR6x320GB/s32GB/s查看请注意:以上内容根据公开数据整理,建议在决策前访问NVIDIA官方网站获取最权威和最新的数据!
1. FLOPS 到底是什么?
FLOPS 的全称是Floating-Point Operations Per Second,翻译过来就是「每秒浮点运算次数」。简单理解:它就像 GPU 的「算数速度表」,1 FLOPS 意味着 GPU 每秒能完成 1 次小数的加减乘除运算;这个数字越大,说明 GPU 的算数能力越强,处理海量数据的速度就越快。为什么偏偏用它?因为 GPU 的核心使命,就是处理 AI 训练、科学计算、图形渲染这类「需要疯狂算数」的场景——比如跑大模型时,要同时计算上亿个参数,这时候「每秒能算多少次」,就成了最关键的能力指标。
2. 常见单位: K/M/G/T/P
GPU 算力越来越强,单靠 FLOPS 已经不够用,于是就有了这些「量级单位」,记住换算逻辑,看参数就像看体重一样简单:「K」= 千:KFLOPS = 每秒 1000 次浮点运算(入门级,现在基本不用)「M」= 百万:MFLOPS = 每秒 100 万次浮点运算(早期低端显卡)「G」= 十亿:GFLOPS = 每秒 10 亿次浮点运算(中端显卡入门)「T」= 万亿:TFLOPS = 每秒 1 万亿次浮点运算(现在主流 GPU 核心单位)「P」= 千万亿:PFLOPS = 每秒 1000 万亿次浮点运算(超算、GPU 集群级别)举个直观例子:NVIDIA H100 显卡的峰值算力约 1000 TFLOPS(FP8 精度),意思就是——这张卡每秒能完成 1000 万亿次小数运算,相当于每秒能算完普通人一辈子都算不完的题目。
FP 缩写:FP = Floating-Point,中文意思是「浮点型」,简单说就是「带小数的数字类型」,用来表示有小数点的数值(比如 3.14、0.001),是 GPU 处理算数运算时的核心数据格式。 FP32 / FP16 / FP8 含义(按精度从高到低):
FP32(单精度):精度最高、速度最慢、算力最低。适合科学计算、高精度仿真、传统图形渲染(比如工业设计、影视后期),追求“算得准”,不追求“算得快”。FP16 / BF16(半精度):AI 领域最常用的精度。精度足够支撑大模型训练,速度比 FP32 快很多,是目前主流显卡的“主力精度”。FP8(8位精度):专为大模型加速设计。精度比 FP16 低,但速度暴增,算力数字直接翻倍,适合大模型训练和推理的“提速场景”。INT8 / INT4(整数精度):精度最低、速度最快、算力最高。适合模型推理、图像识别、语音识别等场景,主打“又快又省”,不用追求高精度,只需要快速输出结果。
参考:
NVIDIA GPU架构演进及使用场景
英伟达主流GPU参数速查表3.20(更新B300和GB300)
常见 GPU 卡的算力值表
GPU 算力指标:FLOPS、TFLOPS、PFLOPS 到底是什么
英伟达GPU到底有哪些型号对中国禁售? 特供版和原版有多大差距?
英伟达算力GPU主要型号及参数
NVIDIA 技术架构
一文看懂英伟达的NVLink技术
GPU Database | TechPowerUp
Hardware Solutions for AI, Data Centers & Crypto | Viperatech
NVIDIA Graphics | VideoCardz.com
芯参数GPU显卡性能数据库
安志合个人博客,版权所有 丨 如未注明,均为原创 丨 转载请注明转自:https://chegva.com/6562.html | ☆★★每天进步一点点,加油!★★☆ |