當前位置: 華文問答 > 數碼

GPU效能最佳化的指標有哪些?這些指標的含義是什麽,怎麽針對性的進行最佳化?

2021-08-05數碼

GPU規格指標分析(二)

以輝達Nvidia p00 GPU為例

GPU Memory(視訊記憶體):141GB

  • 含義:
    GPU視訊記憶體,也稱為影片RAM(VRAM), 是安裝在顯卡上的專用記憶體 。它用於儲存GPU正在處理的數據,包括3D模型的紋理、幀緩沖區、著色器的臨時數據等。 視訊記憶體的容量決定了GPU能夠快速存取的數據量 。較大的視訊記憶體容量能夠容納更多的紋理和畫面細節,因而可以在較高分辨率和較高質素設定下執行圖形密集型應用程式(如現代3D遊戲)而不會導致效能下降。
  • 視訊記憶體的類別
  • GDDR5: 這是較早期的視訊記憶體技術,已被GDDR6等更新技術取代,但仍在一些入門級或較舊型號的顯卡上使用。
  • GDDR6: 在很多現代顯卡上廣泛使用的視訊記憶體類別,較GDDR5提供更高的速度和頻寬。
  • HBM(High Bandwidth Memory) :這是一種堆疊式視訊記憶體,能夠提供更高的頻寬,通常用在高端顯卡或工作站級顯卡上。 NVIDIAp00 是首款采用 HBM3e 的 GPU。
  • 視訊記憶體與系統記憶體

    1. 用途差異:

  • GPU視訊記憶體(GPU Memory): 專門設計用於GPU的高速記憶體 , 用來儲存與圖形渲染相關的數據 ,例如紋理、頂點數據和幀緩沖區。視訊記憶體通常是用在顯卡或整合圖形解決方案中。
  • 記憶體(System Memory): 系統記憶體是CPU存取的主要儲存介質,用於儲存執行中程式的數據和指令 。系統記憶體通常是透過記憶體條實作的,例如DDR4或DDR5 SDRAM。
  • 2. 效能差異:

  • GPU視訊記憶體通常采用GDDR(圖形雙倍數據速率)SDRAM,如GDDR5、GDDR6或HBM(高頻寬記憶體)技術。這些類別的記憶體針對高吞吐量和低延遲進行了最佳化,以應對圖形處理中的大量並列數據存取。
  • 系統記憶體則通常是標準的DDR(雙倍數據速率)SDRAM,最佳化了成本和相容性,並且足以滿足CPU在各種套用場景中的記憶體需求。
  • 3. 物理差異:

  • GPU視訊記憶體是直接安裝在顯卡上的 ,與GPU芯片的親密度要高得多,這樣可以減少數據傳輸帶來的延遲。
  • 系統記憶體是安裝在主機板上的記憶體插槽中 ,距離CPU較遠,因此在數據傳輸上可能較慢。
  • 4. 容量差異:

  • GPU視訊記憶體的容量通常 小於 系統記憶體容量。
  • 5. 可延伸性差異:

  • 對於獨立顯卡,視訊記憶體容量通常是固定的 ,使用者無法更換或升級。
  • 系統記憶體具有很大的可延伸性。 使用者可以透過添加或替換記憶體條來增加系統記憶體容量。
  • GPU Memory Bandwidth(視訊記憶體頻寬):4.8TB/s

  • 含義: 視訊記憶體頻寬是指視訊記憶體傳輸數據的速度,通常是以每秒多少千兆字節(GB/s)來衡量。 頻寬決定了GPU能有多快地讀取和寫入數據到視訊記憶體中。 這對於圖形渲染非常重要,尤其是對於高分辨率渲染和復雜的3D場景,這些場景需要大量數據被快速處理。
  • 視訊記憶體頻寬是由視訊記憶體的時脈、數據傳輸率和總線寬度共同決定的。 時脈決定了視訊記憶體可以進行多少次操作,數據傳輸率決定了每次操作可以傳輸多少數據,而總線寬度則決定了數據總線的寬度。
  • 舉個例子

    如果一個顯卡的總線寬度是256位(bits),視訊記憶體的有效時脈是2000 MHz(對應4000 MT/s,因為GDDR5和GDDR6每個時鐘周期可以傳輸兩次數據),那麽視訊記憶體頻寬可以這樣計算:

    (256位 / 8) * 4000 MT/s = 32字節 * 4000 MT/s = 128000 MB/s = 128 GB/s

    Decoders: 7NVDEC 7JPEG

  • 含義: 「Decoders」通常指的是該GPU中整合的硬件 解碼器的種類和數量
  • NVDEC: NVDEC代表NVIDIA的影片解碼引擎(NVIDIA Video Decoder),這是一種硬件加速解碼器,專門用於快速高效地解碼影片流。數碼「7」表示該GPU含有7個NVDEC解碼單元。這意味著GPU能夠同時或並列地處理多個影片流的解碼,提高多工處理影片的能力。
  • JPEG: JPEG代表聯合影像專家組(Joint Photographic Experts Group),是一種廣泛使用的影像壓縮技術和格式。在GPU規格中提到JPEG,意味著該GPU擁有專門用於硬件加速JPEG影像的解碼能力。數碼「7」表明有7個此類解碼單元可用,使得GPU能夠同時處理多個JPEG影像的解碼任務。
  • Max Thermal Design Power(TDP):Up to 700w(configurable)

  • Thermal Design Power (TDP): 熱設計功率是指在執行最大計算負載時,預計GPU將消耗的最大功率。這個值也是系統設計者用來確定散熱解決方案必須應對的熱量輸出。
  • Up to 700W: 這表示該 GPU在最高效能狀態下的熱輸出可以高達700瓦。 這是一個很高的數值,表明GPU在滿負荷執行時非常強大,並且需要相應強大的散熱系統來保持合適的工作溫度。
  • configurable: 這意味著使用者或系統設計者可能能夠配置GPU的功率設定,以便它在不同的場景下執行時消耗不同的功率。這可以透過BIOS設定、GPU驅動程式或專用的硬件管理軟件來實作。例如,使用者可以選擇將TDP設定得較低以減少能量消耗和熱量產生,但這通常會犧牲一些效能。
  • Multi-Instance GPUs:Up to 7 MIGs @16.5GB each

  • "Multi-Instance GPUs" (MIGs)是指一種功能,該功能 允許單個GPU被分割成多個獨立的、隔離的例項(小型GPU) ,每個例項都有自己的資源(如計算核心、記憶體等)。這意味著多個使用者或應用程式可以在同一個物理GPU上同時高效、安全地執行,而互不幹擾。
  • "Up to 7 MIGs @16.5GB each" 表示這個 GPU可以分割成最多7個獨立的例項,每個例項分配到的視訊記憶體(GPU記憶體)最多可以是16.5GB 。簡而言之,這項功能允許一個具有較大總視訊記憶體的GPU被拆分成多個小的、功能完整的GPU,每個小的GPU都可以獨立執行不同的任務或服務不同的客戶。
  • Form Factor:SXM

  • "Form Factor"指的是 GPU的尺寸和連線介面的規格形態。
  • "SXM"代表的是"NVIDIA SXM",這是一個特定的GPU模組設計,由NVIDIA公司針對高效能計算(HPC)市場推出。 SXM全稱為"NVIDIA Tesla SXM"或"NVIDIA NVLink SXM",它是一種透過NVIDIA NVLink技術為多個GPU模組提供高頻寬互聯的方案。 這種形式的GPU模組不像通用的PCIe介面GPU卡,而是 采用專門設計的介面和布局安裝在支持的主機板或機架上。
  • 這種設計允許數據在GPU之間以更高的速度傳輸,從而提高多個GPU並列工作時的效率,並且支持更高功率和更有效的冷卻解決方案。 SXM模組通常用在數據中心、超級電腦和企業級的機器學習及人工智能套用中。
  • Interconnect(多個GPU、GPU和CPU或其他器材之間的通訊介面和頻寬):NVIDIA NVLink®: 900GB/s;PCIe Gen5: 128GB/s PCIe

  • NVIDIA NVLink®: 900GB/s NVLink是NVIDIA開發的一種高速互連技術, 用於連線多個GPU或GPU與CPU。 這項技術允許多個GPU之間或者GPU與CPU之間進行更快的數據交換。當規格說明中提到900GB/s,這通常代表單個NVLink連線的最大理論傳輸速率。註意,這個速率是雙向的,所以它能同時處理900GB每秒的入向和出向數據 在高效能計算(HPC)或深度學習的套用中,如此高的速率可以顯著提升多GPU系統的效能。
  • PCIe Gen5: 128GB/s PCIe即Peripheral Component Interconnect Express,是現代電腦中用於各種硬件元件連線的標準介面, 其中包括連線GPU的介面 。Gen5指的是第五代PCI Express技術。PCIe不同代的主要區別在於頻寬,即數據傳輸速率。第五代的PCIe(PCIe 5.0)比之前的代提供了更高的頻寬。 規格說明中的128GB/s代表了PCIe Gen5介面的最大理論雙向傳輸速率。