当前位置: 华文问答 > 数码

如何评价英特尔终止 Optane 持久内存业务?学术圈的研究是否还可持续?

2022-07-30数码

早上开会刚刚在讨论对这个事情的应对方案,谈谈看法,骗几个赞.....

1. 结论

节省大家时间,先把结论总结放在这里:

  • 对学术界的影响
  • 对于当前各种 PMEM 上的应用创新来讲
  • 会直接影响学术圈对持久化内存的热情,一大波硕博可能会转换方向
  • 高校导师后续对这个方向的投入也会减弱
  • 对于如何做更好的 PMEM 而言
  • 应该没有太大的影响,毕竟 Optane 的问题症结还是成本
  • 对工业界的影响
  • 短期来看,在性能敏感的特殊业务场景下,可能会寻找更贵的替代解决方案
  • 长期来看,对持久化内存的应用场景的探索很可能会中断,更快的 SSD 或者 更便宜的内存可能作为两个独立的探索路线分别研究
  • 2. 持久内存的应用场景

    在 2019 年,我就和团队同学一起开发了针对 PMEM 的单机 KV 引擎,当时纯粹是赌一把趋势,希望未来这款介质真的能够量产,可惜目前来看它除了作为更便宜的内存来用(memory mode),在其他业务场景上很难有可观测的实践意义。

    我们把 PMEM 的使用场景大致分为以下几类:

  • 场景1)Cache 系统
  • 现状:主要用的是它大容量和便宜的特性,对持久化特点不是那么在意,但可以提供更高的数据恢复速度,所以一般还是会保留这个特性
  • 替代方案:最直接的,就是用 DRAM 直接换,用更高的成本支撑缓存系统;第二个方案是用 SSD(甚至是 ZNAND SSD) 混合 DRAM 把成本降下来,但性能显然不能和之前相比,需要接受性能下降;
  • 场景2)数据库系统
  • 现状:部分公司会利用 PMEM 构建一套内存数据库,并且保留其持久化特性,通常作为元数据服务用的数据库使用,性能极高
  • 替代方案:严格来说,这种场景的用法是充分发挥了 PMEM 的定位,所以它的替代方案基本上没有,其他的 NVDIMM 介质容量太低,而用 DRAM 替换又丢失了持久化特性,所以大概率只能用大容量 DRAM + SSD,不要做 sync write,允许集群断电的时候丢失部分数据了
  • 场景3)写 Buffer
  • 现状:有些业务利用 PMEM 或 Optane SSD 作为随机写的 buffer,然后转成顺序写后再写入 TLC/QLC SSD,达到综合性价比最高的效果,这种场景确实非常适合 PMEM 的定位
  • 替代方案:作为 Buffer 场景,其实只要消费速度足够快,Buffer 的容量不需要很大,可以考虑使用 NVDIMM 等小容量的持久化内存介质替换,问题应该不是特别大
  • 场景4)硬件加速
  • 现状:部分公司还会在 DPU 内部集成 PMEM,作为本地和远程块设备的缓冲区
  • 替代方案:没有很好的替代方案,只能去掉这个设备吃网络延迟了......
  • 3. 学术研究

    工作原因,我和很多高校建立了不错的联系,也大体知道教授们选题的主要思路,除了极个别有前瞻性的实验室不看工业界的发展趋势外,绝大部分实验室都倾向于从工业界获得更多的输入(数据、设备、场景、效果等等)

    以前些年特别火的 Open Channel 为例,早期进行深度定制研究的应该是百度、阿里两家公司(更正一下,清华陆老师应该13年就开始研究了,目前我已知最早了,阿里最早15年有部门开始研究),后续工业界也和清华中科院等开始合作共同研究,做出了还不错的科研效果,而当 OC并未能够在工业界产生良好的反馈后,大部分实验室很快就抛弃了这个方向,有个别实验室在此基础上做了更进一步的研究,比如中科院做了开源 SSD 仿真实验平台,在这个方向继续深挖,还有一些实验室在此基础上做了类似 ZNS 的协议,但实际上已经和 OC 本身没有什么关系了。

    说回 PMEM,目前学术界很多人都在研究 PMEM 上构建索引、PMEM 加速机器学习系统等工作,这两年发现工业界没有什么进展,甚至厂商都停产了,我预测会和 OC 一样,绝大部分实验室会减少投入,个别前期投入比较大的实验室(比如某实验室自己做了模拟设备、仿真系统),可能会转向与之关联的周边系统(比如利用 CXL 构建 byte addressable block device 等)

    4. 追更

    感觉大家讨论的很热烈,再补充一点为什么Optane 被放弃的猜测。

    我个人而言,原本是非常看好 Optane 相关产品的,在部分场景下和QLC/PLC SSD 组合使用,有机会作为下一代在线存储的标准架构存在。

    大家提到 Optane 总是更强调低延迟,其实最关键的问题依然是低成本,Optane 如果实际生产成本如英特尔所言,远低于DRAM,那么不管是在数据库还是在块存储服务,都能用更少的硬件成本换来更高的吞吐,核算下来就是更低的服务成本,主流云厂商没有理由不大规模推广。

    那么问题在哪儿?据我所知,一线大厂目前基本都有了基于optane的产品,但不敢大规模用(除了memory mode敞开了用),原因之一是单一供应商问题,这一点英特尔这当初真应该联合其他厂家共同做大市场(比如授权给中国公司……)

    不过另一点,我觉得可能是真正的核心问题,就是实际生产成本远高于厂家宣传,前几年都是大规模亏本培育市场,试图通过更大规模量产把成本降下来,可惜没有成功……