如何评价英特尔终止 Optane 持久内存业务？学术圈的研究是否还可持续？

2022-07-30数码

早上开会刚刚在讨论对这个事情的应对方案，谈谈看法，骗几个赞.....

1. 结论

节省大家时间，先把结论总结放在这里：

对学术界的影响

对于当前各种 PMEM 上的应用创新来讲

会直接影响学术圈对持久化内存的热情，一大波硕博可能会转换方向

高校导师后续对这个方向的投入也会减弱

对于如何做更好的 PMEM 而言

应该没有太大的影响，毕竟 Optane 的问题症结还是成本

对工业界的影响

短期来看，在性能敏感的特殊业务场景下，可能会寻找更贵的替代解决方案

长期来看，对持久化内存的应用场景的探索很可能会中断，更快的 SSD 或者更便宜的内存可能作为两个独立的探索路线分别研究

2. 持久内存的应用场景

在 2019 年，我就和团队同学一起开发了针对 PMEM 的单机 KV 引擎，当时纯粹是赌一把趋势，希望未来这款介质真的能够量产，可惜目前来看它除了作为更便宜的内存来用(memory mode)，在其他业务场景上很难有可观测的实践意义。

我们把 PMEM 的使用场景大致分为以下几类：

场景1）Cache 系统

现状：主要用的是它大容量和便宜的特性，对持久化特点不是那么在意，但可以提供更高的数据恢复速度，所以一般还是会保留这个特性

替代方案：最直接的，就是用 DRAM 直接换，用更高的成本支撑缓存系统；第二个方案是用 SSD（甚至是 ZNAND SSD）混合 DRAM 把成本降下来，但性能显然不能和之前相比，需要接受性能下降；

场景2）数据库系统

现状：部分公司会利用 PMEM 构建一套内存数据库，并且保留其持久化特性，通常作为元数据服务用的数据库使用，性能极高

替代方案：严格来说，这种场景的用法是充分发挥了 PMEM 的定位，所以它的替代方案基本上没有，其他的 NVDIMM 介质容量太低，而用 DRAM 替换又丢失了持久化特性，所以大概率只能用大容量 DRAM + SSD，不要做 sync write，允许集群断电的时候丢失部分数据了

场景3）写 Buffer

现状：有些业务利用 PMEM 或 Optane SSD 作为随机写的 buffer，然后转成顺序写后再写入 TLC/QLC SSD，达到综合性价比最高的效果，这种场景确实非常适合 PMEM 的定位

替代方案：作为 Buffer 场景，其实只要消费速度足够快，Buffer 的容量不需要很大，可以考虑使用 NVDIMM 等小容量的持久化内存介质替换，问题应该不是特别大

场景4）硬件加速

现状：部分公司还会在 DPU 内部集成 PMEM，作为本地和远程块设备的缓冲区

替代方案：没有很好的替代方案，只能去掉这个设备吃网络延迟了......

3. 学术研究

工作原因，我和很多高校建立了不错的联系，也大体知道教授们选题的主要思路，除了极个别有前瞻性的实验室不看工业界的发展趋势外，绝大部分实验室都倾向于从工业界获得更多的输入（数据、设备、场景、效果等等）

以前些年特别火的 Open Channel 为例，早期进行深度定制研究的应该是百度、阿里两家公司（更正一下，清华陆老师应该13年就开始研究了，目前我已知最早了，阿里最早15年有部门开始研究），后续工业界也和清华中科院等开始合作共同研究，做出了还不错的科研效果，而当 OC并未能够在工业界产生良好的反馈后，大部分实验室很快就抛弃了这个方向，有个别实验室在此基础上做了更进一步的研究，比如中科院做了开源 SSD 仿真实验平台，在这个方向继续深挖，还有一些实验室在此基础上做了类似 ZNS 的协议，但实际上已经和 OC 本身没有什么关系了。

说回 PMEM，目前学术界很多人都在研究 PMEM 上构建索引、PMEM 加速机器学习系统等工作，这两年发现工业界没有什么进展，甚至厂商都停产了，我预测会和 OC 一样，绝大部分实验室会减少投入，个别前期投入比较大的实验室（比如某实验室自己做了模拟设备、仿真系统），可能会转向与之关联的周边系统（比如利用 CXL 构建 byte addressable block device 等）

4. 追更

感觉大家讨论的很热烈，再补充一点为什么Optane 被放弃的猜测。

我个人而言，原本是非常看好 Optane 相关产品的，在部分场景下和QLC/PLC SSD 组合使用，有机会作为下一代在线存储的标准架构存在。

大家提到 Optane 总是更强调低延迟，其实最关键的问题依然是低成本，Optane 如果实际生产成本如英特尔所言，远低于DRAM，那么不管是在数据库还是在块存储服务，都能用更少的硬件成本换来更高的吞吐，核算下来就是更低的服务成本，主流云厂商没有理由不大规模推广。

那么问题在哪儿？据我所知，一线大厂目前基本都有了基于optane的产品，但不敢大规模用（除了memory mode敞开了用），原因之一是单一供应商问题，这一点英特尔这当初真应该联合其他厂家共同做大市场（比如授权给中国公司……）

不过另一点，我觉得可能是真正的核心问题，就是实际生产成本远高于厂家宣传，前几年都是大规模亏本培育市场，试图通过更大规模量产把成本降下来，可惜没有成功……