當前位置: 華文問答 > 科學

宇宙射線對電腦訊號傳遞的錯誤率有多大影響?

2015-06-05科學

才看到知乎上有人討論這個話題。之前有很多人介紹過單粒子效應的基本概念了,不再重復。在這裏澄清幾點:

1. Cisco 公告的摘要說,軟錯誤問題的可能原因是單粒子效應(single event effect),並沒有提到宇宙射線。我沒有cisco帳號,沒看到報告的全文,但猜測在全文裏也沒有提宇宙射線。對於地面套用,引起單粒子效應的放射線源,更有可能是芯片封裝材料裏的放射性同位素在alpha 衰變中放出的alpha粒子,而不是宇宙射線。在沒有充分證據的情況下怪罪老天,會遭天遣的。

2. 地面裝置因為單粒子效應出現軟錯誤,並不是什麽新鮮事。2001年底,Sun 公司的 UltraSparc 高端伺服器出現無規律的當機,就是緩存芯片裏的軟錯誤造成的。等到幾個月後 Sun 公司找到原因並更開始換出問題的緩存時,這個事件已經對 Sun 的信譽造成了無可挽回的負面影響。2004年,Xilinx 公司的部份 FPGA 芯片也出過類似的單粒子效應問題。這兩次事件都是由於芯片封裝材料中的放射性同位素引起的,和宇宙射線沒啥關系。如下圖所示,出問題的 Xilinx FPGA 芯片采用了倒封裝工藝,Flip-Chip焊球距離晶片上的晶體管有源區只有幾個微米的距離。焊錫(鉛錫合金)中的微量放射性同位素會發生alpha衰變。例如,同位素釙210 (鉛210的衰變產物)會發射 5.3 MeV 的 alpha 粒子,並衰變成鉛206。這個alpha粒子會在電路中產生單粒子效應,引起軟錯誤。

來源:Xilinx White Paper 208 (2004)

3. 如果 Cisco 在調查後把錯誤原因歸結為放射性同位素引起的單粒子效應,那麽他們應當可以找到引發問題的芯片;然後該芯片的生產商應該可以找到發射過量alpha粒子的材料供應商——這才算找到根本原因了。如果有誰下載到 Cisco 的報告全文的話,可以看一下(我也有興趣看看)。

4. 當然,先進CMOS工藝的器件,其軟錯誤也有會有新的物理機制。例如,宇宙射線中的 mu 和 tau 粒子,穿透大氣的能力(相比中子)比較強,並且可能在 28nm 等先進工藝生產的芯片中引起單粒子翻轉。這個機制算是近年的一個研究熱點吧。如果 Cisco 在調查後發現這次軟錯誤事件是某種新機制造成的,那他們應該發論文仔細報道實驗和分析的細節。對此我就更有興趣了。

5. Cisco 在單粒子效應/軟錯誤領域的投入是很大的。花了很多錢,做了很多實驗,發了很多不錯的論文。他們說這次的軟錯誤問題是單粒子效應造成的,在沒看到報告全文之前,我暫且是相信他們的。但這次暴露出來的軟錯誤似乎太頻繁了,似乎超過了通常經驗中的軟錯誤率。這讓人懷疑Cisco是不是在設計中有所疏漏。當然,這只是猜測,有待分析。

6. 題主提到的beta射線和gamma射線,在一般的地面套用中可以忽略不計,和這次 Cisco 事件沒什麽關系。在空間套用中,通常比較關註 beta/gamma 射線對總劑量效應的貢獻,一般不考慮它們對軟錯誤的直接貢獻。其他放射線環境下的 beta/gamma 射線,有其他效應。這些課題比較小眾,就不展開講了。