当前位置: 华文问答 > 科学

宇宙射线对计算机讯号传递的错误率有多大影响?

2015-06-05科学

才看到知乎上有人讨论这个话题。之前有很多人介绍过单粒子效应的基本概念了,不再重复。在这里澄清几点:

1. Cisco 公告的摘要说,软错误问题的可能原因是单粒子效应(single event effect),并没有提到宇宙射线。我没有cisco账号,没看到报告的全文,但猜测在全文里也没有提宇宙射线。对于地面应用,引起单粒子效应的辐射源,更有可能是芯片封装材料里的放射性同位素在alpha 衰变中放出的alpha粒子,而不是宇宙射线。在没有充分证据的情况下怪罪老天,会遭天遣的。

2. 地面设备因为单粒子效应出现软错误,并不是什么新鲜事。2001年底,Sun 公司的 UltraSparc 高端服务器出现无规律的死机,就是缓存芯片里的软错误造成的。等到几个月后 Sun 公司找到原因并更开始换出问题的缓存时,这个事件已经对 Sun 的信誉造成了无可挽回的负面影响。2004年,Xilinx 公司的部分 FPGA 芯片也出过类似的单粒子效应问题。这两次事件都是由于芯片封装材料中的放射性同位素引起的,和宇宙射线没啥关系。如下图所示,出问题的 Xilinx FPGA 芯片采用了倒封装工艺,Flip-Chip焊球距离晶片上的晶体管有源区只有几个微米的距离。焊锡(铅锡合金)中的微量放射性同位素会发生alpha衰变。例如,同位素钋210 (铅210的衰变产物)会发射 5.3 MeV 的 alpha 粒子,并衰变成铅206。这个alpha粒子会在电路中产生单粒子效应,引起软错误。

来源:Xilinx White Paper 208 (2004)

3. 如果 Cisco 在调查后把错误原因归结为放射性同位素引起的单粒子效应,那么他们应当可以找到引发问题的芯片;然后该芯片的生产商应该可以找到发射过量alpha粒子的材料供应商——这才算找到根本原因了。如果有谁下载到 Cisco 的报告全文的话,可以看一下(我也有兴趣看看)。

4. 当然,先进CMOS工艺的器件,其软错误也有会有新的物理机制。例如,宇宙射线中的 mu 和 tau 粒子,穿透大气的能力(相比中子)比较强,并且可能在 28nm 等先进工艺生产的芯片中引起单粒子翻转。这个机制算是近年的一个研究热点吧。如果 Cisco 在调查后发现这次软错误事件是某种新机制造成的,那他们应该发论文仔细报道实验和分析的细节。对此我就更有兴趣了。

5. Cisco 在单粒子效应/软错误领域的投入是很大的。花了很多钱,做了很多实验,发了很多不错的论文。他们说这次的软错误问题是单粒子效应造成的,在没看到报告全文之前,我暂且是相信他们的。但这次暴露出来的软错误似乎太频繁了,似乎超过了通常经验中的软错误率。这让人怀疑Cisco是不是在设计中有所疏漏。当然,这只是猜测,有待分析。

6. 题主提到的beta射线和gamma射线,在一般的地面应用中可以忽略不计,和这次 Cisco 事件没什么关系。在空间应用中,通常比较关注 beta/gamma 射线对总剂量效应的贡献,一般不考虑它们对软错误的直接贡献。其他辐射环境下的 beta/gamma 射线,有其他效应。这些课题比较小众,就不展开讲了。