GPU性能优化的指标有哪些？这些指标的含义是什么，怎么针对性的进行优化？

2021-08-05数码

GPU规格指标分析（二）

以英伟达Nvidia p00 GPU为例

GPU Memory（显存）:141GB

含义：
GPU显存，也称为视频RAM（VRAM），是安装在显卡上的专用内存。它用于存储GPU正在处理的数据，包括3D模型的纹理、帧缓冲区、着色器的临时数据等。 显存的容量决定了GPU能够快速访问的数据量 。较大的显存容量能够容纳更多的纹理和画面细节，因而可以在较高分辨率和较高质量设置下运行图形密集型应用程序（如现代3D游戏）而不会导致性能下降。

显存的类型

GDDR5： 这是较早期的显存技术，已被GDDR6等更新技术取代，但仍在一些入门级或较旧型号的显卡上使用。

GDDR6： 在很多现代显卡上广泛使用的显存类型，较GDDR5提供更高的速度和带宽。

HBM（High Bandwidth Memory） ：这是一种堆栈式显存，能够提供更高的带宽，通常用在高端显卡或工作站级显卡上。 NVIDIAp00 是首款采用 HBM3e 的 GPU。

显存与系统内存

1. 用途差异：

GPU显存（GPU Memory）：专门设计用于GPU的高速内存，用来存储与图形渲染相关的数据，例如纹理、顶点数据和帧缓冲区。显存通常是用在显卡或集成图形解决方案中。

内存（System Memory）：系统内存是CPU访问的主要存储介质，用于存储运行中程序的数据和指令。系统内存通常是通过内存条实现的，例如DDR4或DDR5 SDRAM。

2. 性能差异：

GPU显存通常采用GDDR（图形双倍数据速率）SDRAM，如GDDR5、GDDR6或HBM（高带宽内存）技术。这些类型的内存针对高吞吐量和低延迟进行了优化，以应对图形处理中的大量并行数据访问。

系统内存则通常是标准的DDR（双倍数据速率）SDRAM，优化了成本和兼容性，并且足以满足CPU在各种应用场景中的内存需求。

3. 物理差异：

GPU显存是直接安装在显卡上的，与GPU芯片的亲密度要高得多，这样可以减少数据传输带来的延迟。

系统内存是安装在主板上的内存插槽中，距离CPU较远，因此在数据传输上可能较慢。

4. 容量差异：

GPU显存的容量通常小于系统内存容量。

5. 可扩展性差异：

对于独立显卡，显存容量通常是固定的，用户无法更换或升级。

系统内存具有很大的可扩展性。用户可以通过添加或替换内存条来增加系统内存容量。

GPU Memory Bandwidth（显存带宽）:4.8TB/s

含义： 显存带宽是指显存传输数据的速度，通常是以每秒多少千兆字节（GB/s）来衡量。带宽决定了GPU能有多快地读取和写入数据到显存中。这对于图形渲染非常重要，尤其是对于高分辨率渲染和复杂的3D场景，这些场景需要大量数据被快速处理。

显存带宽是由显存的时钟频率、数据传输率和总线宽度共同决定的。时钟频率决定了显存可以进行多少次操作，数据传输率决定了每次操作可以传输多少数据，而总线宽度则决定了数据总线的宽度。

举个例子

如果一个显卡的总线宽度是256位（bits），显存的有效时钟频率是2000 MHz（对应4000 MT/s，因为GDDR5和GDDR6每个时钟周期可以传输两次数据），那么显存带宽可以这样计算：

(256位 / 8) * 4000 MT/s = 32字节 * 4000 MT/s = 128000 MB/s = 128 GB/s

Decoders: 7NVDEC 7JPEG

含义： 「Decoders」通常指的是该GPU中集成的硬件 解码器的种类和数量

NVDEC: NVDEC代表NVIDIA的视频解码引擎（NVIDIA Video Decoder），这是一种硬件加速解码器，专门用于快速高效地解码视频流。数字「7」表示该GPU含有7个NVDEC解码单元。这意味着GPU能够同时或并行地处理多个视频流的解码，提高多任务处理视频的能力。

JPEG: JPEG代表联合图像专家组（Joint Photographic Experts Group），是一种广泛使用的图像压缩技术和格式。在GPU规格中提到JPEG，意味着该GPU拥有专门用于硬件加速JPEG图像的解码能力。数字「7」表明有7个此类解码单元可用，使得GPU能够同时处理多个JPEG图像的解码任务。

Max Thermal Design Power(TDP）：Up to 700w（configurable）

Thermal Design Power (TDP)： 热设计功率是指在运行最大计算负载时，预计GPU将消耗的最大功率。这个值也是系统设计者用来确定散热解决方案必须应对的热量输出。

Up to 700W： 这表示该 GPU在最高性能状态下的热输出可以高达700瓦。这是一个很高的数值，表明GPU在满负荷运行时非常强大，并且需要相应强大的散热系统来保持合适的工作温度。

configurable： 这意味着用户或系统设计者可能能够配置GPU的功率设置，以便它在不同的场景下运行时消耗不同的功率。这可以通过BIOS设置、GPU驱动程序或专用的硬件管理软件来实现。例如，用户可以选择将TDP设置得较低以减少能量消耗和热量产生，但这通常会牺牲一些性能。

Multi-Instance GPUs：Up to 7 MIGs @16.5GB each

"Multi-Instance GPUs" （MIGs）是指一种功能，该功能允许单个GPU被分割成多个独立的、隔离的实例（小型GPU），每个实例都有自己的资源（如计算核心、内存等）。这意味着多个用户或应用程序可以在同一个物理GPU上同时高效、安全地运行，而互不干扰。

"Up to 7 MIGs @16.5GB each" 表示这个 GPU可以分割成最多7个独立的实例，每个实例分配到的显存（GPU内存）最多可以是16.5GB 。简而言之，这项功能允许一个具有较大总显存的GPU被拆分成多个小的、功能完整的GPU，每个小的GPU都可以独立运行不同的任务或服务不同的客户。

Form Factor：SXM

"Form Factor"指的是 GPU的尺寸和连接接口的规格形态。

"SXM"代表的是"NVIDIA SXM"，这是一个特定的GPU模块设计，由NVIDIA公司针对高性能计算（HPC）市场推出。 SXM全称为"NVIDIA Tesla SXM"或"NVIDIA NVLink SXM"，它是一种通过NVIDIA NVLink技术为多个GPU模块提供高带宽互联的方案。这种形式的GPU模块不像通用的PCIe接口GPU卡，而是采用专门设计的接口和布局安装在支持的主板或机架上。

这种设计允许数据在GPU之间以更高的速度传输，从而提高多个GPU并行工作时的效率，并且支持更高功率和更有效的冷却解决方案。 SXM模块通常用在数据中心、超级计算机和企业级的机器学习及人工智能应用中。

Interconnect（多个GPU、GPU和CPU或其他设备之间的通信接口和带宽）：NVIDIA NVLink®: 900GB/s；PCIe Gen5: 128GB/s PCIe

NVIDIA NVLink®: 900GB/s NVLink是NVIDIA开发的一种高速互连技术，用于连接多个GPU或GPU与CPU。这项技术允许多个GPU之间或者GPU与CPU之间进行更快的数据交换。当规格说明中提到900GB/s，这通常代表单个NVLink连接的最大理论传输速率。注意，这个速率是双向的，所以它能同时处理900GB每秒的入向和出向数据。在高性能计算（HPC）或深度学习的应用中，如此高的速率可以显著提升多GPU系统的性能。

PCIe Gen5: 128GB/s PCIe即Peripheral Component Interconnect Express，是现代计算机中用于各种硬件组件连接的标准接口，其中包括连接GPU的接口。Gen5指的是第五代PCI Express技术。PCIe不同代的主要区别在于带宽，即数据传输速率。第五代的PCIe（PCIe 5.0）比之前的代提供了更高的带宽。规格说明中的128GB/s代表了PCIe Gen5接口的最大理论双向传输速率。