早上开会刚刚在讨论对这个事情的应对方案,谈谈看法,骗几个赞.....
1. 结论
节省大家时间,先把结论总结放在这里:
2. 持久内存的应用场景
在 2019 年,我就和团队同学一起开发了针对 PMEM 的单机 KV 引擎,当时纯粹是赌一把趋势,希望未来这款介质真的能够量产,可惜目前来看它除了作为更便宜的内存来用(memory mode),在其他业务场景上很难有可观测的实践意义。
我们把 PMEM 的使用场景大致分为以下几类:
3. 学术研究
工作原因,我和很多高校建立了不错的联系,也大体知道教授们选题的主要思路,除了极个别有前瞻性的实验室不看工业界的发展趋势外,绝大部分实验室都倾向于从工业界获得更多的输入(数据、设备、场景、效果等等)
以前些年特别火的 Open Channel 为例,早期进行深度定制研究的应该是百度、阿里两家公司(更正一下,清华陆老师应该13年就开始研究了,目前我已知最早了,阿里最早15年有部门开始研究),后续工业界也和清华中科院等开始合作共同研究,做出了还不错的科研效果,而当 OC并未能够在工业界产生良好的反馈后,大部分实验室很快就抛弃了这个方向,有个别实验室在此基础上做了更进一步的研究,比如中科院做了开源 SSD 仿真实验平台,在这个方向继续深挖,还有一些实验室在此基础上做了类似 ZNS 的协议,但实际上已经和 OC 本身没有什么关系了。
说回 PMEM,目前学术界很多人都在研究 PMEM 上构建索引、PMEM 加速机器学习系统等工作,这两年发现工业界没有什么进展,甚至厂商都停产了,我预测会和 OC 一样,绝大部分实验室会减少投入,个别前期投入比较大的实验室(比如某实验室自己做了模拟设备、仿真系统),可能会转向与之关联的周边系统(比如利用 CXL 构建 byte addressable block device 等)
4. 追更
感觉大家讨论的很热烈,再补充一点为什么Optane 被放弃的猜测。
我个人而言,原本是非常看好 Optane 相关产品的,在部分场景下和QLC/PLC SSD 组合使用,有机会作为下一代在线存储的标准架构存在。
大家提到 Optane 总是更强调低延迟,其实最关键的问题依然是低成本,Optane 如果实际生产成本如英特尔所言,远低于DRAM,那么不管是在数据库还是在块存储服务,都能用更少的硬件成本换来更高的吞吐,核算下来就是更低的服务成本,主流云厂商没有理由不大规模推广。
那么问题在哪儿?据我所知,一线大厂目前基本都有了基于optane的产品,但不敢大规模用(除了memory mode敞开了用),原因之一是单一供应商问题,这一点英特尔这当初真应该联合其他厂家共同做大市场(比如授权给中国公司……)
不过另一点,我觉得可能是真正的核心问题,就是实际生产成本远高于厂家宣传,前几年都是大规模亏本培育市场,试图通过更大规模量产把成本降下来,可惜没有成功……