才看到知乎上有人讨论这个话题。之前有很多人介绍过单粒子效应的基本概念了,不再重复。在这里澄清几点:
1. Cisco 公告的摘要说,软错误问题的可能原因是单粒子效应(single event effect),并没有提到宇宙射线。我没有cisco账号,没看到报告的全文,但猜测在全文里也没有提宇宙射线。对于地面应用,引起单粒子效应的辐射源,更有可能是芯片封装材料里的放射性同位素在alpha 衰变中放出的alpha粒子,而不是宇宙射线。在没有充分证据的情况下怪罪老天,会遭天遣的。
2. 地面设备因为单粒子效应出现软错误,并不是什么新鲜事。2001年底,Sun 公司的 UltraSparc 高端服务器出现无规律的死机,就是缓存芯片里的软错误造成的。等到几个月后 Sun 公司找到原因并更开始换出问题的缓存时,这个事件已经对 Sun 的信誉造成了无可挽回的负面影响。2004年,Xilinx 公司的部分 FPGA 芯片也出过类似的单粒子效应问题。这两次事件都是由于芯片封装材料中的放射性同位素引起的,和宇宙射线没啥关系。如下图所示,出问题的 Xilinx FPGA 芯片采用了倒封装工艺,Flip-Chip焊球距离晶片上的晶体管有源区只有几个微米的距离。焊锡(铅锡合金)中的微量放射性同位素会发生alpha衰变。例如,同位素钋210 (铅210的衰变产物)会发射 5.3 MeV 的 alpha 粒子,并衰变成铅206。这个alpha粒子会在电路中产生单粒子效应,引起软错误。