人耳 20kHz 封頂，為什麽數位音訊都要記錄和解析到更高的頻率上去？

2016-04-29數位

基本原理兩個：取樣定理（

取樣定理

）和實際的低通濾波器（

低通濾波器

）。

取樣定理很多人都已經提到了，當采樣頻率大於訊號頻率兩倍的情況下，可以完美地從這些離散采樣裏還原出原來的連續訊號。這個定理很神奇，即使是看懂了數學證明很多人也還是覺得直覺上難以接受。沒有從根本上理解這個定理是很多所謂的音訊發燒友甚至是「工程師」經常犯錯（例如鼓吹什麽終端產品也要 96KHz 取樣率）的根本原因。這裏就不多扯了。

但是一個問題是，這個定理是有一個前提的——訊號頻率必須有限、小於采樣頻率的一半。然而現實中，麥克風所能接收、采集到的空氣振動的頻率範圍是非常大的，遠遠超過人耳聽力。如果直接把這樣的訊號采樣，會導致出現混疊。所以必須要先使用一個低通濾波器，把高於閾值的訊號過濾掉。然而我們並沒有一個理想的低通濾波器！參考第一行的第二個連結，可以看到實際濾波器並不是以一條垂直的直線把訊號攔腰砍斷，而是一個快速下降的曲線。

音訊取樣率略高於 40KHz 的原因並不是考慮到「異常聽力」——因為實際上 20KHz 這個頻率已經有不少冗余了（看過一篇薈萃分析，這個數值是眾多心理音響學實驗的結果，互相交叉驗證了）。再考慮到成年後高頻率聽力快速下降，不可能有人能聽到 20KHz 以上的聲音的。

原因其實是給實際低通濾波器留出空間！使得那一段不怎麽完美的下降曲線落在 20KHz 之外，不影響音訊效果。這個應該是個工程選擇。 44.1KHz 被證明完全可以滿足需要，另一種常見的 48KHz 也並不會在這一方面有優勢。一開始的標準制定者在參考編碼等因素後確定了這兩大常見頻率，尤其是 44.1KHz ，也就一直沿用下來了。參見

@JerryJazzy

回答中參照的那段計算。

c.f. CDDA

另外推薦兩個很有幫助的視訊：

Xiph.org: Video

P.S. 關於更高取樣率對於人耳聽音樂是否有意義，其實是在另一個知乎問題裏討論的。我也寫了個回答：

人耳的頻率範圍最高20kHz, 那96kHz,192kHz取樣率或更高有什麽意義？ - 馬宏菩的回答

根據評論區的討論，補充一個要點：整個音訊制作流中是有出現（有必要）使用更高取樣率的地方的，一個肯定的地方便是播放時的 DAC 經常是 oversample 的（後者是 up-sample 到一個很高的頻率，然後進行線性插值、平滑恢復成模擬訊號，這麽做的原因只是使用正弦函式在計算上困難，故而換做一個高效、numerically stable 的近似，並不是真的需要高頻訊號，整個過程對使用者是完全透明的，不需要關心），另一個可能、也是更有實際意義的地方是音樂的采集、處理階段，可能需要加工頻譜，而這方面我就不熟悉了。正如上面連結的另一個答案所說的，消費者關心的最終產品（數位音訊檔）中，高取樣率是無意義（甚至可能有害）的。