當前位置: 華文問答 > 數位

如何評價英特爾終止 Optane 持久記憶體業務?學術圈的研究是否還永續?

2022-07-30數位

早上開會剛剛在討論對這個事情的應對方案,談談看法,騙幾個贊.....

1. 結論

節省大家時間,先把結論總結放在這裏:

  • 對學術界的影響
  • 對於當前各種 PMEM 上的套用創新來講
  • 會直接影響學術圈對持久化記憶體的熱情,一大波碩博可能會轉換方向
  • 高校導師後續對這個方向的投入也會減弱
  • 對於如何做更好的 PMEM 而言
  • 應該沒有太大的影響,畢竟 Optane 的問題癥結還是成本
  • 對工業界的影響
  • 短期來看,在效能敏感的特殊業務場景下,可能會尋找更貴的替代解決方案
  • 長期來看,對持久化記憶體的套用場景的探索很可能會中斷,更快的 SSD 或者 更便宜的記憶體可能作為兩個獨立的探索路線分別研究
  • 2. 持久記憶體的套用場景

    在 2019 年,我就和團隊同學一起開發了針對 PMEM 的單機 KV 引擎,當時純粹是賭一把趨勢,希望未來這款介質真的能夠量產,可惜目前來看它除了作為更便宜的記憶體來用(memory mode),在其他業務場景上很難有可觀測的實踐意義。

    我們把 PMEM 的使用場景大致分為以下幾類:

  • 場景1)Cache 系統
  • 現狀:主要用的是它大容量和便宜的特性,對持久化特點不是那麽在意,但可以提供更高的數據恢復速度,所以一般還是會保留這個特性
  • 替代方案:最直接的,就是用 DRAM 直接換,用更高的成本支撐緩存系統;第二個方案是用 SSD(甚至是 ZNAND SSD) 混合 DRAM 把成本降下來,但效能顯然不能和之前相比,需要接受效能下降;
  • 場景2)資料庫系統
  • 現狀:部份公司會利用 PMEM 構建一套記憶體資料庫,並且保留其持久化特性,通常作為後設資料服務用的資料庫使用,效能極高
  • 替代方案:嚴格來說,這種場景的用法是充分發揮了 PMEM 的定位,所以它的替代方案基本上沒有,其他的 NVDIMM 介質容量太低,而用 DRAM 替換又遺失了持久化特性,所以大機率只能用大容量 DRAM + SSD,不要做 sync write,允許集群斷電的時候遺失部份數據了
  • 場景3)寫 Buffer
  • 現狀:有些業務利用 PMEM 或 Optane SSD 作為隨機寫的 buffer,然後轉成順序寫後再寫入 TLC/QLC SSD,達到綜合價效比最高的效果,這種場景確實非常適合 PMEM 的定位
  • 替代方案:作為 Buffer 場景,其實只要消費速度足夠快,Buffer 的容量不需要很大,可以考慮使用 NVDIMM 等小容量的持久化記憶體介質替換,問題應該不是特別大
  • 場景4)硬體加速
  • 現狀:部份公司還會在 DPU 內部整合 PMEM,作為本地和遠端塊裝置的緩沖區
  • 替代方案:沒有很好的替代方案,只能去掉這個裝置吃網路延遲了......
  • 3. 學術研究

    工作原因,我和很多高校建立了不錯的聯系,也大體知道教授們選題的主要思路,除了極個別有前瞻性的實驗室不看工業界的發展趨勢外,絕大部份實驗室都傾向於從工業界獲得更多的輸入(數據、裝置、場景、效果等等)

    以前些年特別火的 Open Channel 為例,早期進行深度客製研究的應該是百度、阿裏兩家公司(更正一下,清華陸老師應該13年就開始研究了,目前我已知最早了,阿裏最早15年有部門開始研究),後續工業界也和清華中科院等開始合作共同研究,做出了還不錯的科研效果,而當 OC並未能夠在工業界產生良好的反饋後,大部份實驗室很快就拋棄了這個方向,有個別實驗室在此基礎上做了更進一步的研究,比如中科院做了開源 SSD 仿真實驗平台,在這個方向繼續深挖,還有一些實驗室在此基礎上做了類似 ZNS 的協定,但實際上已經和 OC 本身沒有什麽關系了。

    說回 PMEM,目前學術界很多人都在研究 PMEM 上構建索引、PMEM 加速機器學習系統等工作,這兩年發現工業界沒有什麽進展,甚至廠商都停產了,我預測會和 OC 一樣,絕大部份實驗室會減少投入,個別前期投入比較大的實驗室(比如某實驗室自己做了模擬裝置、仿真系統),可能會轉向與之關聯的周邊系統(比如利用 CXL 構建 byte addressable block device 等)

    4. 追更

    感覺大家討論的很熱烈,再補充一點為什麽Optane 被放棄的猜測。

    我個人而言,原本是非常看好 Optane 相關產品的,在部份場景下和QLC/PLC SSD 組合使用,有機會作為下一代線上儲存的標準架構存在。

    大家提到 Optane 總是更強調低延遲,其實最關鍵的問題依然是低成本,Optane 如果實際生產成本如英特爾所言,遠低於DRAM,那麽不管是在資料庫還是在塊儲存服務,都能用更少的硬體成本換來更高的吞吐,核算下來就是更低的服務成本,主流雲廠商沒有理由不大規模推廣。

    那麽問題在哪兒?據我所知,一線大廠目前基本都有了基於optane的產品,但不敢大規模用(除了memory mode敞開了用),原因之一是單一供應商問題,這一點英特爾這當初真應該聯合其他廠家共同做大市場(比如授權給中國公司……)

    不過另一點,我覺得可能是真正的核心問題,就是實際生產成本遠高於廠家宣傳,前幾年都是大規模虧本培育市場,試圖透過更大規模量產把成本降下來,可惜沒有成功……