当前位置: 华文问答 > 数码

GPU性能优化的指标有哪些?这些指标的含义是什么,怎么针对性的进行优化?

2021-08-05数码

GPU规格指标分析(二)

以英伟达Nvidia p00 GPU为例

GPU Memory(显存):141GB

  • 含义:
    GPU显存,也称为视频RAM(VRAM), 是安装在显卡上的专用内存 。它用于存储GPU正在处理的数据,包括3D模型的纹理、帧缓冲区、着色器的临时数据等。 显存的容量决定了GPU能够快速访问的数据量 。较大的显存容量能够容纳更多的纹理和画面细节,因而可以在较高分辨率和较高质量设置下运行图形密集型应用程序(如现代3D游戏)而不会导致性能下降。
  • 显存的类型
  • GDDR5: 这是较早期的显存技术,已被GDDR6等更新技术取代,但仍在一些入门级或较旧型号的显卡上使用。
  • GDDR6: 在很多现代显卡上广泛使用的显存类型,较GDDR5提供更高的速度和带宽。
  • HBM(High Bandwidth Memory) :这是一种堆栈式显存,能够提供更高的带宽,通常用在高端显卡或工作站级显卡上。 NVIDIAp00 是首款采用 HBM3e 的 GPU。
  • 显存与系统内存

    1. 用途差异:

  • GPU显存(GPU Memory): 专门设计用于GPU的高速内存 , 用来存储与图形渲染相关的数据 ,例如纹理、顶点数据和帧缓冲区。显存通常是用在显卡或集成图形解决方案中。
  • 内存(System Memory): 系统内存是CPU访问的主要存储介质,用于存储运行中程序的数据和指令 。系统内存通常是通过内存条实现的,例如DDR4或DDR5 SDRAM。
  • 2. 性能差异:

  • GPU显存通常采用GDDR(图形双倍数据速率)SDRAM,如GDDR5、GDDR6或HBM(高带宽内存)技术。这些类型的内存针对高吞吐量和低延迟进行了优化,以应对图形处理中的大量并行数据访问。
  • 系统内存则通常是标准的DDR(双倍数据速率)SDRAM,优化了成本和兼容性,并且足以满足CPU在各种应用场景中的内存需求。
  • 3. 物理差异:

  • GPU显存是直接安装在显卡上的 ,与GPU芯片的亲密度要高得多,这样可以减少数据传输带来的延迟。
  • 系统内存是安装在主板上的内存插槽中 ,距离CPU较远,因此在数据传输上可能较慢。
  • 4. 容量差异:

  • GPU显存的容量通常 小于 系统内存容量。
  • 5. 可扩展性差异:

  • 对于独立显卡,显存容量通常是固定的 ,用户无法更换或升级。
  • 系统内存具有很大的可扩展性。 用户可以通过添加或替换内存条来增加系统内存容量。
  • GPU Memory Bandwidth(显存带宽):4.8TB/s

  • 含义: 显存带宽是指显存传输数据的速度,通常是以每秒多少千兆字节(GB/s)来衡量。 带宽决定了GPU能有多快地读取和写入数据到显存中。 这对于图形渲染非常重要,尤其是对于高分辨率渲染和复杂的3D场景,这些场景需要大量数据被快速处理。
  • 显存带宽是由显存的时钟频率、数据传输率和总线宽度共同决定的。 时钟频率决定了显存可以进行多少次操作,数据传输率决定了每次操作可以传输多少数据,而总线宽度则决定了数据总线的宽度。
  • 举个例子

    如果一个显卡的总线宽度是256位(bits),显存的有效时钟频率是2000 MHz(对应4000 MT/s,因为GDDR5和GDDR6每个时钟周期可以传输两次数据),那么显存带宽可以这样计算:

    (256位 / 8) * 4000 MT/s = 32字节 * 4000 MT/s = 128000 MB/s = 128 GB/s

    Decoders: 7NVDEC 7JPEG

  • 含义: 「Decoders」通常指的是该GPU中集成的硬件 解码器的种类和数量
  • NVDEC: NVDEC代表NVIDIA的视频解码引擎(NVIDIA Video Decoder),这是一种硬件加速解码器,专门用于快速高效地解码视频流。数字「7」表示该GPU含有7个NVDEC解码单元。这意味着GPU能够同时或并行地处理多个视频流的解码,提高多任务处理视频的能力。
  • JPEG: JPEG代表联合图像专家组(Joint Photographic Experts Group),是一种广泛使用的图像压缩技术和格式。在GPU规格中提到JPEG,意味着该GPU拥有专门用于硬件加速JPEG图像的解码能力。数字「7」表明有7个此类解码单元可用,使得GPU能够同时处理多个JPEG图像的解码任务。
  • Max Thermal Design Power(TDP):Up to 700w(configurable)

  • Thermal Design Power (TDP): 热设计功率是指在运行最大计算负载时,预计GPU将消耗的最大功率。这个值也是系统设计者用来确定散热解决方案必须应对的热量输出。
  • Up to 700W: 这表示该 GPU在最高性能状态下的热输出可以高达700瓦。 这是一个很高的数值,表明GPU在满负荷运行时非常强大,并且需要相应强大的散热系统来保持合适的工作温度。
  • configurable: 这意味着用户或系统设计者可能能够配置GPU的功率设置,以便它在不同的场景下运行时消耗不同的功率。这可以通过BIOS设置、GPU驱动程序或专用的硬件管理软件来实现。例如,用户可以选择将TDP设置得较低以减少能量消耗和热量产生,但这通常会牺牲一些性能。
  • Multi-Instance GPUs:Up to 7 MIGs @16.5GB each

  • "Multi-Instance GPUs" (MIGs)是指一种功能,该功能 允许单个GPU被分割成多个独立的、隔离的实例(小型GPU) ,每个实例都有自己的资源(如计算核心、内存等)。这意味着多个用户或应用程序可以在同一个物理GPU上同时高效、安全地运行,而互不干扰。
  • "Up to 7 MIGs @16.5GB each" 表示这个 GPU可以分割成最多7个独立的实例,每个实例分配到的显存(GPU内存)最多可以是16.5GB 。简而言之,这项功能允许一个具有较大总显存的GPU被拆分成多个小的、功能完整的GPU,每个小的GPU都可以独立运行不同的任务或服务不同的客户。
  • Form Factor:SXM

  • "Form Factor"指的是 GPU的尺寸和连接接口的规格形态。
  • "SXM"代表的是"NVIDIA SXM",这是一个特定的GPU模块设计,由NVIDIA公司针对高性能计算(HPC)市场推出。 SXM全称为"NVIDIA Tesla SXM"或"NVIDIA NVLink SXM",它是一种通过NVIDIA NVLink技术为多个GPU模块提供高带宽互联的方案。 这种形式的GPU模块不像通用的PCIe接口GPU卡,而是 采用专门设计的接口和布局安装在支持的主板或机架上。
  • 这种设计允许数据在GPU之间以更高的速度传输,从而提高多个GPU并行工作时的效率,并且支持更高功率和更有效的冷却解决方案。 SXM模块通常用在数据中心、超级计算机和企业级的机器学习及人工智能应用中。
  • Interconnect(多个GPU、GPU和CPU或其他设备之间的通信接口和带宽):NVIDIA NVLink®: 900GB/s;PCIe Gen5: 128GB/s PCIe

  • NVIDIA NVLink®: 900GB/s NVLink是NVIDIA开发的一种高速互连技术, 用于连接多个GPU或GPU与CPU。 这项技术允许多个GPU之间或者GPU与CPU之间进行更快的数据交换。当规格说明中提到900GB/s,这通常代表单个NVLink连接的最大理论传输速率。注意,这个速率是双向的,所以它能同时处理900GB每秒的入向和出向数据 在高性能计算(HPC)或深度学习的应用中,如此高的速率可以显著提升多GPU系统的性能。
  • PCIe Gen5: 128GB/s PCIe即Peripheral Component Interconnect Express,是现代计算机中用于各种硬件组件连接的标准接口, 其中包括连接GPU的接口 。Gen5指的是第五代PCI Express技术。PCIe不同代的主要区别在于带宽,即数据传输速率。第五代的PCIe(PCIe 5.0)比之前的代提供了更高的带宽。 规格说明中的128GB/s代表了PCIe Gen5接口的最大理论双向传输速率。