這篇回答裏我主要想講高階矩( \geq 3 ),因為一階矩(期望值)和二階矩(變異數)相對來說並不難理解。而看這個問題的措辭,題主也是對高階矩比較困惑。
在我看來,高階矩的目的是去測量一個分布的 重尾程度 ,或者說概率 p(x) 是否 隨著值 x 的增大急速地減少。
聽起來有點抽象,那讓我首先來解釋重尾是什麽意思。
在研究一個分布的時候,我們很多時候可能會 對極大值特別的敏感 。比如說,我是一個小型公司的老板,收到了一份這樣的風險分析,0.1 的概率賠10萬,0.05 的概率賠20萬,等等。這些數碼我大概都是一掃而過,因為這些錢我完全賠的起。但假如說我看到了一個0.01 的概率賠1000萬,我估計眼睛就瞪圓了。雖然說0.01不算是一個大的概率,但是賠這麽多錢我們公司可能就破產了。
所以說,對於特別大的值,光是概率小是不夠的,我們可能需要概率 非常非常小 。由於畫圖時這些極大值會出現在影像的邊界,我們稱這些極大值為分布的 尾部 。
比如,下圖是我們熟悉的高斯分布。 尾部就是出現在影像的邊緣。但是提到尾部,我建議不要想到4,5個 std開外,而是去想象幾十個甚至更多std開外。
現在我們回頭看一下k階矩的定義。為了方便我只考慮k為偶數,期望值為零的情況。
\mu_k = \int_{-\infty}^{\infty}x^kp(x)dx 。
在這裏我們可以將 \mu_k 理解成對於重尾現象的厭惡值,而k可以理解成一種加權。
想象我們會根據一個隨機函數x的重尾程度對其扣分。
當k=3的時候,x = 1000 對應著扣10^9分。
當k=4的時候,x = 1000對應著扣10^12分。
。。。。
。。。。
當k=10的時候,x=1000對應著扣10^30分。
我們可以看到,隨著k的增大,極大值對高階矩的影響會 急速 地增大(註意,是急速)。
在這種情況下,如果說希望 \mu_k 不跟著爆炸的話,那麽只有一種可能:
p(x)會隨著x的增大而急速的減小,從而抵消x^k的瘋長。
為了闡述這一點,我覺得可以重新看一下大家比較熟悉的高斯分布 N(0,1) , 這是一個典型的輕尾分布。
下面是一個大家可能不是很熟悉的性質。
對於 N(0,1), 有 P(x>t)\leq e^{-\frac{t^2}{2}} 。
也就是說,隨著x的增大,概率會以指數的速度下降!
這個速度非常之快,大家可以很容易算得 p(x>10)\leq e^{-50} = 3.72*10^{-44}.
而上述這個性質也同樣可以用高階矩來表示,即為
對於任意k, \mu_k\leq k^{\frac{k}{2}} 。
而對於那些重尾的分布, \mu_k 可能就沒有這種上界了,很多時候如果k比較大\mu_k 直接就是無窮。
所以,有這樣一層對應關系
\mu_k 緩慢增長 等同於 分布的概率隨著x的增長快速下降。
這對於我來說是一個非常有用的認識,也希望能夠對大家有幫助。