GPU效能最佳化的指標有哪些?這些指標的含義是什麽,怎麽針對性的進行最佳化?
2021-08-05數碼
GPU規格指標分析(二)
以輝達Nvidia p00 GPU為例
GPU Memory(視訊記憶體):141GB
含義:
GPU視訊記憶體,也稱為影片RAM(VRAM),
是安裝在顯卡上的專用記憶體
。它用於儲存GPU正在處理的數據,包括3D模型的紋理、幀緩沖區、著色器的臨時數據等。
視訊記憶體的容量決定了GPU能夠快速存取的數據量
。較大的視訊記憶體容量能夠容納更多的紋理和畫面細節,因而可以在較高分辨率和較高質素設定下執行圖形密集型應用程式(如現代3D遊戲)而不會導致效能下降。
視訊記憶體的類別
GDDR5:
這是較早期的視訊記憶體技術,已被GDDR6等更新技術取代,但仍在一些入門級或較舊型號的顯卡上使用。
GDDR6:
在很多現代顯卡上廣泛使用的視訊記憶體類別,較GDDR5提供更高的速度和頻寬。
HBM(High Bandwidth Memory)
:這是一種堆疊式視訊記憶體,能夠提供更高的頻寬,通常用在高端顯卡或工作站級顯卡上。
NVIDIAp00 是首款采用 HBM3e 的 GPU。
視訊記憶體與系統記憶體
1. 用途差異:
GPU視訊記憶體(GPU Memory):
專門設計用於GPU的高速記憶體
,
用來儲存與圖形渲染相關的數據
,例如紋理、頂點數據和幀緩沖區。視訊記憶體通常是用在顯卡或整合圖形解決方案中。
記憶體(System Memory):
系統記憶體是CPU存取的主要儲存介質,用於儲存執行中程式的數據和指令
。系統記憶體通常是透過記憶體條實作的,例如DDR4或DDR5 SDRAM。
2. 效能差異:
GPU視訊記憶體通常采用GDDR(圖形雙倍數據速率)SDRAM,如GDDR5、GDDR6或HBM(高頻寬記憶體)技術。這些類別的記憶體針對高吞吐量和低延遲進行了最佳化,以應對圖形處理中的大量並列數據存取。
系統記憶體則通常是標準的DDR(雙倍數據速率)SDRAM,最佳化了成本和相容性,並且足以滿足CPU在各種套用場景中的記憶體需求。
3. 物理差異:
GPU視訊記憶體是直接安裝在顯卡上的
,與GPU芯片的親密度要高得多,這樣可以減少數據傳輸帶來的延遲。
系統記憶體是安裝在主機板上的記憶體插槽中
,距離CPU較遠,因此在數據傳輸上可能較慢。
4. 容量差異:
GPU視訊記憶體的容量通常
小於
系統記憶體容量。
5. 可延伸性差異:
對於獨立顯卡,視訊記憶體容量通常是固定的
,使用者無法更換或升級。
系統記憶體具有很大的可延伸性。
使用者可以透過添加或替換記憶體條來增加系統記憶體容量。
GPU Memory Bandwidth(視訊記憶體頻寬):4.8TB/s
含義:
視訊記憶體頻寬是指視訊記憶體傳輸數據的速度,通常是以每秒多少千兆字節(GB/s)來衡量。
頻寬決定了GPU能有多快地讀取和寫入數據到視訊記憶體中。
這對於圖形渲染非常重要,尤其是對於高分辨率渲染和復雜的3D場景,這些場景需要大量數據被快速處理。
視訊記憶體頻寬是由視訊記憶體的時脈、數據傳輸率和總線寬度共同決定的。
時脈決定了視訊記憶體可以進行多少次操作,數據傳輸率決定了每次操作可以傳輸多少數據,而總線寬度則決定了數據總線的寬度。
舉個例子
如果一個顯卡的總線寬度是256位(bits),視訊記憶體的有效時脈是2000 MHz(對應4000 MT/s,因為GDDR5和GDDR6每個時鐘周期可以傳輸兩次數據),那麽視訊記憶體頻寬可以這樣計算:
(256位 / 8) * 4000 MT/s = 32字節 * 4000 MT/s = 128000 MB/s = 128 GB/s
Decoders: 7NVDEC 7JPEG
含義:
「Decoders」通常指的是該GPU中整合的硬件
解碼器的種類和數量
NVDEC:
NVDEC代表NVIDIA的影片解碼引擎(NVIDIA Video Decoder),這是一種硬件加速解碼器,專門用於快速高效地解碼影片流。數碼「7」表示該GPU含有7個NVDEC解碼單元。這意味著GPU能夠同時或並列地處理多個影片流的解碼,提高多工處理影片的能力。
JPEG:
JPEG代表聯合影像專家組(Joint Photographic Experts Group),是一種廣泛使用的影像壓縮技術和格式。在GPU規格中提到JPEG,意味著該GPU擁有專門用於硬件加速JPEG影像的解碼能力。數碼「7」表明有7個此類解碼單元可用,使得GPU能夠同時處理多個JPEG影像的解碼任務。
Max Thermal Design Power(TDP):Up to 700w(configurable)
Thermal Design Power (TDP):
熱設計功率是指在執行最大計算負載時,預計GPU將消耗的最大功率。這個值也是系統設計者用來確定散熱解決方案必須應對的熱量輸出。
Up to 700W:
這表示該
GPU在最高效能狀態下的熱輸出可以高達700瓦。
這是一個很高的數值,表明GPU在滿負荷執行時非常強大,並且需要相應強大的散熱系統來保持合適的工作溫度。
configurable:
這意味著使用者或系統設計者可能能夠配置GPU的功率設定,以便它在不同的場景下執行時消耗不同的功率。這可以透過BIOS設定、GPU驅動程式或專用的硬件管理軟件來實作。例如,使用者可以選擇將TDP設定得較低以減少能量消耗和熱量產生,但這通常會犧牲一些效能。
Multi-Instance GPUs:Up to 7 MIGs @16.5GB each
"Multi-Instance GPUs"
(MIGs)是指一種功能,該功能
允許單個GPU被分割成多個獨立的、隔離的例項(小型GPU)
,每個例項都有自己的資源(如計算核心、記憶體等)。這意味著多個使用者或應用程式可以在同一個物理GPU上同時高效、安全地執行,而互不幹擾。
"Up to 7 MIGs @16.5GB each"
表示這個
GPU可以分割成最多7個獨立的例項,每個例項分配到的視訊記憶體(GPU記憶體)最多可以是16.5GB
。簡而言之,這項功能允許一個具有較大總視訊記憶體的GPU被拆分成多個小的、功能完整的GPU,每個小的GPU都可以獨立執行不同的任務或服務不同的客戶。
Form Factor:SXM
"Form Factor"指的是
GPU的尺寸和連線介面的規格形態。
"SXM"代表的是"NVIDIA SXM",這是一個特定的GPU模組設計,由NVIDIA公司針對高效能計算(HPC)市場推出。
SXM全稱為"NVIDIA Tesla SXM"或"NVIDIA NVLink SXM",它是一種透過NVIDIA NVLink技術為多個GPU模組提供高頻寬互聯的方案。
這種形式的GPU模組不像通用的PCIe介面GPU卡,而是
采用專門設計的介面和布局安裝在支持的主機板或機架上。
這種設計允許數據在GPU之間以更高的速度傳輸,從而提高多個GPU並列工作時的效率,並且支持更高功率和更有效的冷卻解決方案。
SXM模組通常用在數據中心、超級電腦和企業級的機器學習及人工智能套用中。
Interconnect(多個GPU、GPU和CPU或其他器材之間的通訊介面和頻寬):NVIDIA NVLink®: 900GB/s;PCIe Gen5: 128GB/s PCIe
NVIDIA NVLink®: 900GB/s
NVLink是NVIDIA開發的一種高速互連技術,
用於連線多個GPU或GPU與CPU。
這項技術允許多個GPU之間或者GPU與CPU之間進行更快的數據交換。當規格說明中提到900GB/s,這通常代表單個NVLink連線的最大理論傳輸速率。註意,這個速率是雙向的,所以它能同時處理900GB每秒的入向和出向數據
。
在高效能計算(HPC)或深度學習的套用中,如此高的速率可以顯著提升多GPU系統的效能。
PCIe Gen5: 128GB/s
PCIe即Peripheral Component Interconnect Express,是現代電腦中用於各種硬件元件連線的標準介面,
其中包括連線GPU的介面
。Gen5指的是第五代PCI Express技術。PCIe不同代的主要區別在於頻寬,即數據傳輸速率。第五代的PCIe(PCIe 5.0)比之前的代提供了更高的頻寬。
規格說明中的128GB/s代表了PCIe Gen5介面的最大理論雙向傳輸速率。