早上開會剛剛在討論對這個事情的應對方案,談談看法,騙幾個贊.....
1. 結論
節省大家時間,先把結論總結放在這裏:
2. 持久記憶體的套用場景
在 2019 年,我就和團隊同學一起開發了針對 PMEM 的單機 KV 引擎,當時純粹是賭一把趨勢,希望未來這款介質真的能夠量產,可惜目前來看它除了作為更便宜的記憶體來用(memory mode),在其他業務場景上很難有可觀測的實踐意義。
我們把 PMEM 的使用場景大致分為以下幾類:
3. 學術研究
工作原因,我和很多高校建立了不錯的聯系,也大體知道教授們選題的主要思路,除了極個別有前瞻性的實驗室不看工業界的發展趨勢外,絕大部份實驗室都傾向於從工業界獲得更多的輸入(數據、裝置、場景、效果等等)
以前些年特別火的 Open Channel 為例,早期進行深度客製研究的應該是百度、阿裏兩家公司(更正一下,清華陸老師應該13年就開始研究了,目前我已知最早了,阿裏最早15年有部門開始研究),後續工業界也和清華中科院等開始合作共同研究,做出了還不錯的科研效果,而當 OC並未能夠在工業界產生良好的反饋後,大部份實驗室很快就拋棄了這個方向,有個別實驗室在此基礎上做了更進一步的研究,比如中科院做了開源 SSD 仿真實驗平台,在這個方向繼續深挖,還有一些實驗室在此基礎上做了類似 ZNS 的協定,但實際上已經和 OC 本身沒有什麽關系了。
說回 PMEM,目前學術界很多人都在研究 PMEM 上構建索引、PMEM 加速機器學習系統等工作,這兩年發現工業界沒有什麽進展,甚至廠商都停產了,我預測會和 OC 一樣,絕大部份實驗室會減少投入,個別前期投入比較大的實驗室(比如某實驗室自己做了模擬裝置、仿真系統),可能會轉向與之關聯的周邊系統(比如利用 CXL 構建 byte addressable block device 等)
4. 追更
感覺大家討論的很熱烈,再補充一點為什麽Optane 被放棄的猜測。
我個人而言,原本是非常看好 Optane 相關產品的,在部份場景下和QLC/PLC SSD 組合使用,有機會作為下一代線上儲存的標準架構存在。
大家提到 Optane 總是更強調低延遲,其實最關鍵的問題依然是低成本,Optane 如果實際生產成本如英特爾所言,遠低於DRAM,那麽不管是在資料庫還是在塊儲存服務,都能用更少的硬體成本換來更高的吞吐,核算下來就是更低的服務成本,主流雲廠商沒有理由不大規模推廣。
那麽問題在哪兒?據我所知,一線大廠目前基本都有了基於optane的產品,但不敢大規模用(除了memory mode敞開了用),原因之一是單一供應商問題,這一點英特爾這當初真應該聯合其他廠家共同做大市場(比如授權給中國公司……)
不過另一點,我覺得可能是真正的核心問題,就是實際生產成本遠高於廠家宣傳,前幾年都是大規模虧本培育市場,試圖透過更大規模量產把成本降下來,可惜沒有成功……