GPU效能最佳化的指標有哪些？這些指標的含義是什麽，怎麽針對性的進行最佳化？

2021-08-05數位

GPU規格指標分析（二）

以輝達Nvidia p00 GPU為例

GPU Memory（視訊記憶體）:141GB

含義：
GPU視訊記憶體，也稱為視訊RAM（VRAM），是安裝在顯卡上的專用記憶體。它用於儲存GPU正在處理的數據，包括3D模型的紋理、幀緩沖區、著色器的臨時數據等。 視訊記憶體的容量決定了GPU能夠快速存取的數據量 。較大的視訊記憶體容量能夠容納更多的紋理和畫面細節，因而可以在較高分辨率和較高品質設定下執行圖形密集型應用程式（如現代3D遊戲）而不會導致效能下降。

視訊記憶體的型別

GDDR5： 這是較早期的視訊記憶體技術，已被GDDR6等更新技術取代，但仍在一些入門級或較舊型號的顯卡上使用。

GDDR6： 在很多現代顯卡上廣泛使用的視訊記憶體型別，較GDDR5提供更高的速度和頻寬。

HBM（High Bandwidth Memory） ：這是一種堆疊式視訊記憶體，能夠提供更高的頻寬，通常用在高端顯卡或工作站級顯卡上。 NVIDIAp00 是首款采用 HBM3e 的 GPU。

視訊記憶體與系統記憶體

1. 用途差異：

GPU視訊記憶體（GPU Memory）：專門設計用於GPU的高速記憶體，用來儲存與圖形渲染相關的數據，例如紋理、頂點數據和幀緩沖區。視訊記憶體通常是用在顯卡或整合圖形解決方案中。

記憶體（System Memory）：系統記憶體是CPU存取的主要儲存介質，用於儲存執行中程式的數據和指令。系統記憶體通常是透過記憶體條實作的，例如DDR4或DDR5 SDRAM。

2. 效能差異：

GPU視訊記憶體通常采用GDDR（圖形雙倍數據速率）SDRAM，如GDDR5、GDDR6或HBM（高頻寬記憶體）技術。這些型別的記憶體針對高吞吐量和低延遲進行了最佳化，以應對圖形處理中的大量並列數據存取。

系統記憶體則通常是標準的DDR（雙倍數據速率）SDRAM，最佳化了成本和相容性，並且足以滿足CPU在各種套用場景中的記憶體需求。

3. 物理差異：

GPU視訊記憶體是直接安裝在顯卡上的，與GPU芯片的親密度要高得多，這樣可以減少數據傳輸帶來的延遲。

系統記憶體是安裝在主機板上的記憶體插槽中，距離CPU較遠，因此在數據傳輸上可能較慢。

4. 容量差異：

GPU視訊記憶體的容量通常小於系統記憶體容量。

5. 可延伸性差異：

對於獨立顯卡，視訊記憶體容量通常是固定的，使用者無法更換或升級。

系統記憶體具有很大的可延伸性。使用者可以透過添加或替換記憶體條來增加系統記憶體容量。

GPU Memory Bandwidth（視訊記憶體頻寬）:4.8TB/s

含義： 視訊記憶體頻寬是指視訊記憶體傳輸數據的速度，通常是以每秒多少千兆字節（GB/s）來衡量。頻寬決定了GPU能有多快地讀取和寫入數據到視訊記憶體中。這對於圖形渲染非常重要，尤其是對於高分辨率渲染和復雜的3D場景，這些場景需要大量數據被快速處理。

視訊記憶體頻寬是由視訊記憶體的時脈、數據傳輸率和匯流排寬度共同決定的。時脈決定了視訊記憶體可以進行多少次操作，數據傳輸率決定了每次操作可以傳輸多少數據，而匯流排寬度則決定了數據匯流排的寬度。

舉個例子

如果一個顯卡的匯流排寬度是256位（bits），視訊記憶體的有效時脈是2000 MHz（對應4000 MT/s，因為GDDR5和GDDR6每個時鐘周期可以傳輸兩次數據），那麽視訊記憶體頻寬可以這樣計算：

(256位 / 8) * 4000 MT/s = 32字節 * 4000 MT/s = 128000 MB/s = 128 GB/s

Decoders: 7NVDEC 7JPEG

含義： 「Decoders」通常指的是該GPU中整合的硬體 解碼器的種類和數量

NVDEC: NVDEC代表NVIDIA的視訊解碼引擎（NVIDIA Video Decoder），這是一種硬體加速解碼器，專門用於快速高效地解碼視訊流。數位「7」表示該GPU含有7個NVDEC解碼單元。這意味著GPU能夠同時或並列地處理多個視訊流的解碼，提高多工處理視訊的能力。

JPEG: JPEG代表聯合影像專家組（Joint Photographic Experts Group），是一種廣泛使用的影像壓縮技術和格式。在GPU規格中提到JPEG，意味著該GPU擁有專門用於硬體加速JPEG影像的解碼能力。數位「7」表明有7個此類解碼單元可用，使得GPU能夠同時處理多個JPEG影像的解碼任務。

Max Thermal Design Power(TDP）：Up to 700w（configurable）

Thermal Design Power (TDP)： 熱設計功率是指在執行最大計算負載時，預計GPU將消耗的最大功率。這個值也是系統設計者用來確定散熱解決方案必須應對的熱量輸出。

Up to 700W： 這表示該 GPU在最高效能狀態下的熱輸出可以高達700瓦。這是一個很高的數值，表明GPU在滿負荷執行時非常強大，並且需要相應強大的散熱系統來保持合適的工作溫度。

configurable： 這意味著使用者或系統設計者可能能夠配置GPU的功率設定，以便它在不同的場景下執行時消耗不同的功率。這可以透過BIOS設定、GPU驅動程式或專用的硬體管理軟體來實作。例如，使用者可以選擇將TDP設定得較低以減少能量消耗和熱量產生，但這通常會犧牲一些效能。

Multi-Instance GPUs：Up to 7 MIGs @16.5GB each

"Multi-Instance GPUs" （MIGs）是指一種功能，該功能允許單個GPU被分割成多個獨立的、隔離的例項（小型GPU），每個例項都有自己的資源（如計算核心、記憶體等）。這意味著多個使用者或應用程式可以在同一個物理GPU上同時高效、安全地執行，而互不幹擾。

"Up to 7 MIGs @16.5GB each" 表示這個 GPU可以分割成最多7個獨立的例項，每個例項分配到的視訊記憶體（GPU記憶體）最多可以是16.5GB 。簡而言之，這項功能允許一個具有較大總視訊記憶體的GPU被拆分成多個小的、功能完整的GPU，每個小的GPU都可以獨立執行不同的任務或服務不同的客戶。

Form Factor：SXM

"Form Factor"指的是 GPU的尺寸和連線介面的規格形態。

"SXM"代表的是"NVIDIA SXM"，這是一個特定的GPU模組設計，由NVIDIA公司針對高效能計算（HPC）市場推出。 SXM全稱為"NVIDIA Tesla SXM"或"NVIDIA NVLink SXM"，它是一種透過NVIDIA NVLink技術為多個GPU模組提供高頻寬互聯的方案。這種形式的GPU模組不像通用的PCIe介面GPU卡，而是采用專門設計的介面和布局安裝在支持的主機板或機架上。

這種設計允許數據在GPU之間以更高的速度傳輸，從而提高多個GPU並列工作時的效率，並且支持更高功率和更有效的冷卻解決方案。 SXM模組通常用在數據中心、超級電腦和企業級的機器學習及人工智慧套用中。

Interconnect（多個GPU、GPU和CPU或其他裝置之間的通訊介面和頻寬）：NVIDIA NVLink®: 900GB/s；PCIe Gen5: 128GB/s PCIe

NVIDIA NVLink®: 900GB/s NVLink是NVIDIA開發的一種高速互連技術，用於連線多個GPU或GPU與CPU。這項技術允許多個GPU之間或者GPU與CPU之間進行更快的數據交換。當規格說明中提到900GB/s，這通常代表單個NVLink連線的最大理論傳輸速率。註意，這個速率是雙向的，所以它能同時處理900GB每秒的入向和出向數據。在高效能計算（HPC）或深度學習的套用中，如此高的速率可以顯著提升多GPU系統的效能。

PCIe Gen5: 128GB/s PCIe即Peripheral Component Interconnect Express，是現代電腦中用於各種硬體元件連線的標準介面，其中包括連線GPU的介面。Gen5指的是第五代PCI Express技術。PCIe不同代的主要區別在於頻寬，即數據傳輸速率。第五代的PCIe（PCIe 5.0）比之前的代提供了更高的頻寬。規格說明中的128GB/s代表了PCIe Gen5介面的最大理論雙向傳輸速率。