當前位置: 華文問答 > 數位

如何簡單形象又有趣地講解神經網路是什麽?

2014-02-13數位

神經網路很萌的!

0. 分類

神經網路最重要的用途是分類,為了讓大家對分類有個直觀的認識,咱們先看幾個例子:

  • 垃圾信件辨識:現在有一封電子信件,把出現在裏面的所有詞匯提取出來,送進一個機器裏,機器需要判斷這封信件是否是垃圾信件。
  • 疾病判斷:病人到醫院去做了一大堆肝功、尿檢測驗,把測驗結果送進一個機器裏,機器需要判斷這個病人是否得病,得的什麽病。
  • 貓狗分類:有一大堆貓、狗照片,把每一張照片送進一個機器裏,機器需要判斷這幅照片裏的東西是貓還是狗。
  • 這種能自動對輸入的東西進行分類的機器,就叫做分類器。

    分類器的輸入是一個數值向量,叫做特征(向量)。在第一個例子裏,分類器的輸入是一堆0、1值,表示字典裏的每一個詞是否在信件中出現,比如向量(1,1,0,0,0......)就表示這封信件裏只出現了兩個詞abandon和abnormal;第二個例子裏,分類器的輸入是一堆化驗指標;第三個例子裏,分類器的輸入是照片,假如每一張照片都是320*240像素的紅綠藍三通道彩色照片,那麽分類器的輸入就是一個長度為320*240*3=230400的向量。

    分類器的輸出也是數值。第一個例子中,輸出1表示信件是垃圾信件,輸出0則說明信件是正常信件;第二個例子中,輸出0表示健康,輸出1表示有A肝,輸出2表示有B肝,輸出3表示有餅乾等等;第三個例子中,輸出0表示圖片中是狗,輸出1表示是貓。

    分類器的目標就是讓正確分類的比例盡可能高。一般我們需要首先收集一些樣本,人為標記上正確分類結果,然後用這些標記好的數據訓練分類器,訓練好的分類器就可以在新來的特征向量上工作了。

    1. 神經元

    咱們假設分類器的輸入是透過某種途徑獲得的兩個值,輸出是0和1,比如分別代表貓和狗。現在有一些樣本:

    大家想想,最簡單地把這兩組特征向量分開的方法是啥?當然是在兩組數據中間畫一條豎直線,直線左邊是狗,右邊是貓,分類器就完成了。以後來了新的向量,凡是落在直線左邊的都是狗,落在右邊的都是貓。

    一條直線把平面一分為二,一個平面把三維空間一分為二,一個n-1維超平面把n維空間一分為二,兩邊分屬不同的兩類,這種分類器就叫做神經元。

    大家都知道平面上的直線方程式是ax+by+c=0 ,等式左邊大於零和小於零分別表示點(x,y) 在直線的一側還是另一側,把這個式子推廣到n維空間裏,直線的高維形式稱為超平面,它的方程式是:

    h = a_1x_1+a_2 x_2+...+a_nx_n+a_0=0

    神經元就是當h大於0時輸出1,h小於0時輸出0這麽一個模型,它的實質就是 把特征空間一切兩半,認為兩瓣分別屬兩個類 。你恐怕再也想不到比這更簡單的分類器了,它是McCulloch和Pitts在1943年想出來了。

    這個模型有點像人腦中的神經元:從多個感受器接受電訊號x_1, x_2,...,x_n ,進行處理(加權相加再偏移一點,即判斷輸入是否在某條直線h=0 的一側),發出電訊號(在正確的那側發出1,否則不發訊號,可以認為是發出0),這就是它叫神經元的原因。

    當然,上面那幅圖我們是開了上帝視角才知道「一條豎直線能分開兩類」,在實際訓練神經元時,我們並不知道特征是怎麽抱團的。神經元模型的一種學習方法稱為Hebb演算法:

    先隨機選一條直線/平面/超平面,然後把樣本一個個拿過來,如果這條直線分錯了,說明這個點 分錯邊了 ,就稍微把直線移動一點,讓它靠近這個樣本,爭取跨過這個樣本,讓它跑到直線正確的一側;如果直線分對了,它就暫時停下不動。因此訓練神經元的過程就是這條直線不斷在跳舞,最終跳到兩個類之間的豎直線位置。

    2. 神經網路

    MP神經元有幾個顯著缺點。首先它把直線一側變為0,另一側變為1,這東西不可微,不利於數學分析。人們用一個和0-1階躍函式類似但是更平滑的函式Sigmoid函式來代替它(Sigmoid函式內建一個尺度參數,可以控制神經元對離超平面距離不同的點的響應,這裏忽略它),從此神經網路的訓練就可以用梯度下降法來構造了,這就是有名的反向傳播演算法。

    神經元的另一個缺點是:它只能切一刀!你給我說說一刀怎麽能把下面這兩類分開吧。

    解決辦法是多層神經網路,底層神經元的輸出是高層神經元的輸入。我們可以在中間橫著砍一刀,豎著砍一刀,然後把左上和右下的部份合在一起,與右上的左下部份分開;也可以圍著左上角的邊沿砍10刀把這一部份先挖出來,然後和右下角合並。

    每砍一刀,其實就是使用了一個神經元 ,把不同砍下的半平面做交、並等運算,就是把這些神經元的輸出當作輸入,後面再連線一個神經元。這個例子中特征的形狀稱為異或,這種情況一個神經元搞不定,但是兩層神經元就能正確對其進行分類。

    只要你能砍足夠多刀,把結果拼在一起,什麽奇怪形狀的邊界神經網路都能夠表示,所以說神經網路 在理論上 可以表示很復雜的函式/空間分布。但是真實的神經網路是否能擺動到正確的位置還要看網路初始值設定、樣本容量和分布。

    神經網路神奇的地方在於它的每一個元件非常簡單——把空間切一刀+某種啟用函式(0-1階躍、sigmoid、max-pooling),但是可以一層一層級聯。輸入向量連到許多神經元上,這些神經元的輸出又連到一堆神經元上,這一過程可以重復很多次。這和人腦中的神經元很相似:每一個神經元都有一些神經元作為其輸入,又是另一些神經元的輸入,數值向量就像是電訊號,在不同神經元之間傳導,每一個神經元只有滿足了某種條件才會發射訊號到下一層神經元。當然,人腦比神經網路模型復雜很多:人工神經網路一般不存在環狀結構;人腦神經元的電訊號不僅有強弱,還有時間緩急之分,就像莫爾斯電碼,在人工神經網路裏沒有這種復雜的訊號模式。



    神經網路的訓練依靠反向傳播演算法:最開始輸入層輸入特征向量,網路層層計算獲得輸出,輸出層發現輸出和正確的類號不一樣,這時它就讓最後一層神經元進行參數調整,最後一層神經元不僅自己調整參數,還會勒令連線它的倒數第二層神經元調整,層層往回退著調整。經過調整的網路會在樣本上繼續測試,如果輸出還是老分錯,繼續來一輪回退調整,直到網路輸出滿意為止。這很像中國的文藝體制,武媚娘傳奇劇組就是網路中的一個神經元,最近剛剛調整了參數。

    3. 大型神經網路

    我們不禁要想了,假如我們的這個網路有10層神經元,第8層第2015個神經元,它有什麽含義呢?我們知道它把第七層的一大堆神經元的輸出作為輸入,第七層的神經元又是以第六層的一大堆神經元做為輸入,那麽這個特殊第八層的神經元,它會不會代表了某種抽象的概念?

    就好比你的大腦裏有一大堆負責處理聲音、視覺、觸覺訊號的神經元,它們對於不同的資訊會發出不同的訊號,那麽會不會有這麽一個神經元(或者神經元小集團),它收集這些訊號,分析其是否符合某個抽象的概念,和其他負責更具體和更抽象概念的神經元進行互動。

    2012年多倫多大學的Krizhevsky等人構造了一個超大型

    摺積神經網路

    [1],有9層,共65萬個神經元,6千萬個參數。網路的輸入是圖片,輸出是1000個類,比如小蟲、美洲豹、救生船等等。這個模型的訓練需要海量圖片,它的分類準確率也完爆先前 所有 分類器。紐約大學的

    Zeiler和Fergusi

    [2]把這個網路中某些神經元挑出來,把在其上響應特別大的那些輸入影像放在一起,看它們有什麽共同點。他們發現中間層的神經元響應了某些十分抽象的特征。

    第一層神經元主要負責辨識顏色和簡單紋理

    第二層的一些神經元可以辨識更加細化的紋理,比如布紋、刻度、葉紋。


    第三層的一些神經元負責感受黑夜裏的黃色燭光、雞蛋黃、高光。

    第四層的一些神經元負責辨識萌狗的臉、七星瓢蟲和一堆圓形物體的存在。

    第五層的一些神經元可以辨識出花、圓形屋頂、鍵盤、鳥、黑眼圈動物。


    這裏面的概念並不是整個網路的輸出,是網路中間層神經元的偏好,它們為後面的神經元服務。雖然每一個神經元都傻不拉幾的(只會切一刀),但是65萬個神經元能學到的東西還真是深邃呢。

    [1] Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems (pp. 1097-1105).

    [2] Zeiler, M. D., & Fergus, R. (2013). Visualizing and understanding convolutional neural networks. arXiv preprint arXiv:1311.2901 .