貝葉斯定理厲害在哪裏？

2020-11-06科學

貝葉斯定理太有用了，不管是在投資領域，還是機器學習，或是日常生活中幾乎都在用到它。

例如，生命科學家用貝葉斯定理研究基因是如何被控制的；教育學家意識到，學生的學習過程其實就是貝葉斯法則的運用；基金經理用貝葉斯法則找到投資策略；谷歌用貝葉斯定理改進搜尋功能，幫助使用者過濾垃圾郵件；無人駕駛汽車接收車頂傳感器收集到的路況和交通數據，運用貝葉斯定理更新從地圖上獲得的資訊；人工智能、機器轉譯中大量用到貝葉斯定理...

我將從以下4個角度來科普貝葉斯定理及其背後的思維：

1.貝葉斯定理有什麽用？

2.什麽是貝葉斯定理？

3.貝葉斯定理的套用案例

4.生活中的貝葉斯思維

1.貝葉斯定理有什麽用？

英國數學家杜文·貝葉斯（Thomas Bayes）在1763年發表的一篇論文中，首先提出了這個定理。而這篇論文是在他死後才由他的一位朋友發表出來的。

（ps：貝葉斯定理其實就是下面圖片中的概率公式，這裏先不講這個公式，而是重點關註它的使用價值，因為只有理解了它的套用意義，你才會更有興趣去學習它。）

在這篇論文中，他為了解決一個「逆概率」問題，而提出了貝葉斯定理。

在貝葉斯寫這篇文章之前，人們已經能夠計算「正向概率」。什麽是正向概率呢？舉個例子，杜蕾斯舉辦了一個抽獎，抽獎桶裏有10個球，其中2個白球，8個黑球，抽到白球就算你中獎。你伸手進去隨便摸出1顆球，摸出是中獎球的概率是多大。

根據頻率概率的計算公式，你可以輕松的知道中獎的概率=中獎球數（2個白球）/球總數（2個白球+8個黑球）=2/10

如果還不懂怎麽算出來的，可以看我之前寫的科普概率的回答：猴子：如何理解條件概率？

而貝葉斯在他的文章中是為了解決一個「逆概率」的問題。比如上面的例子我們並不知道抽獎桶裏有什麽，而是摸出一個球，透過觀察這個球的顏色，來預測這個桶裏裏白色球和黑色球的比例。

這個預測其實就可以用貝葉斯定理來做。貝葉斯當時的論文只是對「逆概率」這個問題的求解嘗試，這哥們當時並不清楚這裏面這裏麪包含著的深刻思想。

然而後來，貝葉斯定理席卷了概率論，並將套用延伸到各個領域。可以說，所有需要作出概率預測的地方都可以見到貝葉斯定理的影子，特別地，貝葉斯是機器學習的核心方法之一。

為什麽貝葉斯定理在現實生活中這麽有用呢？

這是因為現實生活中的問題，大部份都是像上面的「逆概率」問題。因為生活中絕大多數決策面臨的資訊都是不全的，我們手中只有有限的資訊。既然無法得到全面的資訊，我們就只能在資訊有限的情況下，盡可能做出一個好的預測。

比如天氣預報說，明天降雨的概率是30%，這是什麽意思呢？

我們無法像計算頻率概率那樣，重復地把明天過上100次，然後計算出大約有30次會下雨（下雨的天數/總天數）

而是只能利用有限的資訊（過去天氣的測量數據），用貝葉斯定理來預測出明天下雨的概率是多少。

同樣的，在現實世界中，我們每個人都需要預測。想要深入分析未來、思考是否買股票、政策給自己帶來哪些機遇、提出新產品構想，或者只是計劃一周的飯菜。

貝葉斯定理就是為了解決這些問題而誕生的，它可以根據過去的數據來預測出未來事情發生概率。

貝葉斯定理的思考方式為我們提供了有效的方法來幫助我們做決策，以便更好地預測未來的商業、金融、以及日常生活。

總結下第1部份：貝葉斯定理有什麽用？

在有限的資訊下，能夠幫助我們預測出概率。

所有需要作出概率預測的地方都可以見到貝葉斯定理的影子，特別地，貝葉斯是機器學習的核心方法之一。例如垃圾郵件過濾，中文分詞，愛滋病檢查，肝癌檢查等。

2.什麽是貝葉斯定理？

貝葉斯定理長這樣：

到這來，你可能會說：猴子，說人話，我一看到公式就頭大啊。

其實，我和你一樣，不喜歡公式。我們還是從一個例子開始聊起。

我的朋友小鹿說，他的女神每次看到他的時候都沖他笑，他現在想知道女神是不是喜歡他呢？

誰讓我學過統計概率知識呢，下面我們一起用貝葉斯幫小鹿預測下女神喜歡他的概率有多大，這樣小鹿就可以根據概率的大小來決定是否要表白女神。

首先，我分析了給定的已知資訊和未知資訊：

1）要求解的問題：女神喜歡你，記為A事件

2）已知條件：女神經常沖你笑，記為B事件

所以，P(A|B)表示女神經常沖你笑這個事件(B)發生後，女神喜歡你（A）的概率。

從公式來看，我們需要知道這麽3個事情：

1）先驗概率

我們把P(A)稱為"先驗概率"（Prior probability），也就是在不知道B事件的前提下，我們對A事件概率的一個主觀判斷。

對應這個例子裏就是在不知道女神經常對你笑的前提下，來主觀判斷出女神喜歡一個人的概率。這裏我們假設是50%，也就是不喜歡你，可能不喜歡你的概率都是一半。

2）可能性函數

P(B|A)/P(B)稱為"可能性函數"（Likelyhood），這是一個調整因子，也就是新資訊B帶來的調整，作用是將先驗概率（之前的主觀判斷）調整到更接近真實概率。

可能性函數你可以理解為新資訊過來後，對先驗概率的一個調整。比如我們剛開始看到「人工智能」這個資訊，你有自己的理解（先驗概率-主觀判斷），但是當你學習了一些數據分析，或者看了些這方面的書後（新的資訊），然後你根據掌握的最新資訊最佳化了自己之前的理解（可能性函數-調整因子），最後重新理解了「人工智能」這個資訊（後驗概率）

如果"可能性函數"P(B|A)/P(B)>1，意味著"先驗概率"被增強，事件A的發生的可能性變大；

如果"可能性函數"=1，意味著B事件無助於判斷事件A的可能性；

如果"可能性函數"<1，意味著"先驗概率"被削弱，事件A的可能性變小。

還是剛才的例子，根據女神經常沖你笑這個新的資訊，我調查走訪了女神的閨蜜，最後發現女神平日比較高冷，很少對人笑，也就是對你有好感的可能性比較大（可能性函數>1）。所以我估計出"可能性函數"P(B|A)/P(B)=1.5（具體如何估計，省去1萬字，後面會有更詳細科學的例子）

3）後驗概率

P(A|B)稱為"後驗概率"（Posterior probability），即在B事件發生之後，我們對A事件概率的重新評估。這個例子裏就是在女神沖你笑後，對女神喜歡你的概率重新預測。

帶入貝葉斯公式計算出P(A|B)=P(A)* P(B|A)/P(B)=50% *1.5=75%

因此，女神經常沖你笑，喜歡上你的概率是75%。這說明，女神經常沖你笑這個新資訊的推斷能力很強，將50%的"先驗概率"一下子提高到了75%的"後驗概率"。

在得到概率值後，小鹿自信滿滿的發了下面的表白微博：

稍後，果然收到了女神的回復。預測成功。

現在我們再看一遍貝葉斯公式，你現在就能明白這個公式背後的關鍵思想了：

我們先根據以往的經驗預估一個"先驗概率"P(A)，然後加入新的資訊（實驗結果B），這樣有了新的資訊後，我們對事件A的預測就更加準確。

因此，貝葉斯定理可以理解成下面的式子：

後驗概率（新資訊出現後的A概率）　＝　先驗概率（A概率）ｘ可能性函數（新資訊帶來的調整）

貝葉斯的底層思想就是：

如果我能掌握一個事情的全部資訊，我當然能計算出一個客觀概率（古典概率）。

可是生活中絕大多數決策面臨的資訊都是不全的，我們手中只有有限的資訊。既然無法得到全面的資訊，我們就在資訊有限的情況下，盡可能做出一個好的預測。也就是，在主觀判斷的基礎上，你可以先估計一個值（先驗概率），然後根據觀察的新資訊不斷修正(可能性函數)。

如果用圖形表示就是這樣的：

其實Alpha狗也是這麽戰勝人類的，簡單來說，Alpha狗會在下每一步棋的時候，都可以計算自己贏棋的最大概率，就是說在每走一步之後，他都可以完全客觀冷靜的更新自己的概率值，完全不受其他環境影響。

3.貝葉斯定理的套用案例

前面我們介紹了貝葉斯定理公式，及其背後的思想。現在我們來舉個套用案例，你會更加熟悉這個牛瓣的工具。

為了後面的案例計算，我們需要先補充下面這個知識。

1.全概率公式

這個公式的作用是計算貝葉斯定理中的P(B)。

假定樣本空間S，由兩個事件A與A'組成的和。例如下圖中，紅色部份是事件A，綠色部份是事件A'，它們共同構成了樣本空間S。

這時候來了個事件B，如下圖：

全概率公式：

它的含義是，如果A和A'構成一個問題的全部（全部的樣本空間），那麽事件B的概率，就等於A和A'的概率分別乘以B對這兩個事件的條件概率之和。

看到這麽復雜的公式，記不住沒關系，因為我也記不住，下面用的時候翻到這裏來看下就可以了。

案例1：貝葉斯定理在做判斷上的套用

有兩個一模一樣的碗，1號碗裏有30個巧克力和10個水果糖，2號碗裏有20個巧克力和20個水果糖。

然後把碗蓋住。隨機選擇一個碗，從裏面摸出一個巧克力。

問題：這顆巧克力來自1號碗的概率是多少？

好了，下面我就用套路來解決這個問題，到最後我會給出這個套路。

第1步，分解問題

1）要求解的問題：取出的巧克力，來自1號碗的概率是多少？

來自1號碗記為事件A1，來自2號碗記為事件A2

取出的是巧克力，記為事件B，

那麽要求的問題就是P(A1|B)，也就是取出的是巧克力（B），來自1號碗（A1）的概率

2）已知資訊：

1號碗裏有30個巧克力和10個水果糖

2號碗裏有20個巧克力和20個水果糖

取出的是巧克力

第2步，套用貝葉斯定理

1）求先驗概率

由於兩個碗是一樣的，所以在得到新資訊（取出是巧克力之前），這兩個碗被選中的概率相同，因此P(A1)=P(A2)=0.5,(其中A1表示來自1號碗，A2表示來自2號碗)

這個概率就是"先驗概率"，即沒有做實驗之前，來自一號碗、二號碗的概率都是0.5。

2）求可能性函數

P(B|A1)/P(B)

其中，P(B|A1)表示從1號碗中(A1)取出是巧克力(B)的概率。

因為1號碗裏有30個巧克力和10個水果糖，所以P(B|A1)=巧克力數（30）/(糖果總數30+10)=75%

現在貝葉斯公式裏只剩P(B)了，只有求出P(B)就可以得到答案。

根據全概率公式，可以用下圖求得P(B)：

圖中P(B|A1)是1號碗中巧克力的概率，我們根據前面的已知條件，很容易求出。

同樣的，P(B|A2)是2號碗中巧克力的概率，也很容易求出（圖中已給出）。

而P(A1)=P(A2)=0.5

將這些數值帶入公式中就是小學生也可以算出來的事情了。最後P(B)=62.5%

所以，可能性函數P(B|A1)/P(B)=75%/62.5%=1.2。

可能性函數>1.表示新資訊B對事情A1的可能性增強了。

3）帶入貝葉斯公式求後驗概率

將上述計算結果，帶入貝葉斯定理，即可算出P(A1|B)=60%

這個例子中我們需要關註的是約束條件：抓出的是巧克力。如果沒有這個約束條件在，來自一號碗這件事的概率就是50%了，因為巧克力的分布不均把概率從50%提升到60%。

現在，我總結下剛才的貝葉斯定理套用的套路，你就更清楚了，會發現像小學生做套用題一樣簡單：

第1步. 分解問題

簡單來說就像做套用題的感覺，先列出解決這個問題所需要的一些條件，然後記清楚哪些是已知的，哪些是未知的。

1）要求解的問題是什麽？

辨識出哪個是貝葉斯中的事件A（一般是想要知道的問題），哪個是事件B（一般是新的資訊，或者實驗結果）

2）已知條件是什麽？

第2步.套用貝葉斯定理

第3步，求貝葉斯公式中的2個指標

1）求先驗概率

2）求可能性函數

3）帶入貝葉斯公式求後驗概率

案例2：貝葉斯定理在醫療行業的套用

每一個醫學檢測，都存在假陽性率和假陰性率。假陽性，就是沒病，但是檢測結果顯示有病。假陰性正好相反，有病但是檢測結果正常。

即使檢測準確率是99%，如果醫生完全依賴檢測結果，也會誤診。也就是說假陽性的情況，根據檢測結果顯示有病，但是你實際並沒有得病。

舉個更具體的例子，因為愛滋病潛伏期很長，所以即便感染了也可能在很長的一段時間，身體沒有任何感覺，所以愛滋病檢測的假陽性會導致被測人非常大的心理壓力。

你可能會覺得，檢測準確率都99%了，誤測幾乎可以忽略不計了吧？所以你覺得這人肯定沒有患愛滋病了對不對？

讓我們用貝葉斯定理算一下，就會發現你的直覺是錯誤的。

假設某種疾病的發病率是0.001，即1000人中會有1個人得病。現在有一種試劑可以檢驗患者是否得病，它的準確率是0.99，即在患者確實得病的情況下，它有99%的可能呈現陽性。它的誤報率是5%，即在患者沒有得病的情況下，它有5%的可能呈現陽性。

現在有一個病人的檢驗結果為陽性，請問他確實得病的可能性有多大？

好了，我知道你面對這一大推資訊又頭大了，我也是。但是我們不是有貝葉斯樣版套路嘛，下面開始。

第1步，分解問題

1）要求解的問題：病人的檢驗結果為陽性，他確實得病的概率有多大？

病人的檢驗結果為陽性（新的資訊）記為事件B，他得病記為事件A，

那麽要求的問題就是P(A|B)，也就是病人的檢驗結果為陽性（B），他確實得病的概率(A)

2）已知資訊

這種疾病的發病率是0.001，即P(A)=0.001

試劑可以檢驗患者是否得病，準確率是0.99，也就是在患者確實得病的情況下(A)，它有99%的可能呈現陽性(B)，所以P(B|A)=0.99

試劑的誤報率是5%，即在患者沒有得病的情況下，它有5%的可能呈現陽性。得病我們記為事件A，那麽沒有得病就是事件A的反面，記為A'，所以這句話就可以表示為P(B|A')=5%

2.套用貝葉斯定理

1）求先驗概率

疾病的發病率是0.001，即P(A)=0.001

2）求可能性函數

P(B|A)/P(B)

其中，P(B|A)表示在患者確實得病的情況下(A)，試劑呈現陽性的概率，從前面的已知條件中我們已經知道P(B|A)=0.99

現在只有求出P(B)就可以得到答案。根據全概率公式，可以用下圖求得P(B)=0.05094

所以可能性函數P(B|A)/P(B)=0.99/0.05094=19.4346

3）帶入貝葉斯公式求後驗概率

我們得到了一個驚人的結果，P(A|B)等於1.94%。

也就是說，篩查的準確率都到了99%了，透過體檢結果有病（陽性）確實得病的概率也只有1.94%

你可能會說，再也不相信那些吹的天花亂墜的技術了，說好了篩查準確率那麽高，結果篩查的結果對於確診疾病一點用都沒有，這還要醫學技術幹什麽？

沒錯，這就是貝葉斯分析告訴我們的。我們拿愛滋病來說，由於發愛滋病實在是小概率事件，所以當我們對一大群人做愛滋病篩查時，雖說準確率有99%，但仍然會有相當一部份人因為誤測而被診斷為愛滋病，這一部份人在人群中的數目甚至比真正愛滋病患者的數目還要高。

你肯定要問了，那該怎樣糾正測量帶來這麽高的誤診呢？

造成這麽不靠譜的誤診的原因，是無差別地給一大群人做篩查，而不論測量準確率有多高，因為正常人的數目遠大於實際的患者，所以誤測造成的幹擾就非常大了。

根據貝葉斯定理，我們知道提高先驗概率，可以有效的提高後驗概率。

所以解決的辦法倒也很簡單，就是先釘選可疑的人群，比如10000人中檢查出現問題的那10個人，再獨立重復檢測一次。因為正常人連續兩次體檢都出現誤測的概率極低，這時篩選出真正患者的準確率就很高了，這也是為什麽許多疾病的檢測，往往還要送交獨立機構多次檢查的原因。

這也是為什麽愛滋病檢測第一次呈陽性的人，還需要做第二次檢測，第二次依然是陽性的還需要送交國家實驗室做第三次檢測。

在【醫學的真相】這本書裏舉了個例子，假設檢測愛滋病毒，對於每一個呈陽性的檢測結果，只有50%的概率能證明這位患者確實感染了病毒。但是如果醫生具備先驗知識，先篩選出一些高風險的病人，然後再讓這些病人進行愛滋病檢查，檢查的準確率就能提升到95%。

案例4：貝葉斯垃圾郵件過濾器

垃圾郵件是一種令人頭痛的問題，困擾著所有的互聯網使用者。全球垃圾郵件的高峰出現在2006年，那時候所有郵件中90%都是垃圾，2015年6月份全球垃圾郵件的比例數碼首次降低到50%以下。

最初的垃圾郵件過濾是靠靜態關鍵詞加一些判斷條件來過濾，效果不好，漏網之魚多，冤枉的也不少。

2002年，Paul Graham提出使用"貝葉斯推斷"過濾垃圾郵件。他說，這樣做的效果，好得不可思議。1000封垃圾郵件可以過濾掉995封，且沒有一個誤判。

因為典型的垃圾郵件詞匯在垃圾郵件中會以更高的頻率出現，所以在做貝葉斯公式計算時，肯定會被辨識出來。之後用最高頻的15個垃圾詞匯做聯合概率計算，聯合概率的結果超過90%將說明它是垃圾郵件。

用貝葉斯過濾器可以辨識很多覆寫過的垃圾郵件，而且錯判率非常低。甚至不要求對初始值有多麽精確，精度會在隨後計算中逐漸逼近真實情況。

（ps：如果留言想詳細了解這個知識的很多，我後面會專門寫文章來回答大家）

4.生活中的貝葉斯思維

貝葉斯定理與人腦的工作機制很像，這也是為什麽它能成為機器學習的基礎。

如果你仔細觀察小孩學習新東西的這個能力，會發現，很多東西根本就是看一遍就會。比如我3歲的外甥，看了我做掌上壓的動作，也做了一次這個動作，雖然動作不標準，但也是有模有樣。

同樣的，我告訴他一個新單詞，他一開始並不知道這個詞是什麽意思，但是他可以根據當時的情景，先來個猜測（先驗概率/主觀判斷）。一有機會，他就會在不同的場合說出這個詞，然後觀察你的反應。如果我告訴他用對了，他就會進一步記住這個詞的意思，如果我告訴他用錯了，他就會進行相應調整。（可能性函數/調整因子）。經過這樣反復的猜測、試探、調整主觀判斷，就是貝葉斯定理思維的過程。

同樣的，我們成人也在用貝葉斯思維來做出決策。比如，你和女神在聊天的時候，如果對方說出「雖然」兩個字，你大概就會猜測，對方後面九成的可能性會說出「但是」。我們的大腦看起來就好像是天生在用貝葉斯定理，即根據生活的經歷有了主觀判斷（先驗概率），然後根據搜集新的資訊來修正（可能性函），最後做出高概率的預測（後驗概率）。

其實這個過程，就是下圖的大腦決策過程：

所以，在生活中涉及到預測的事情，用貝葉斯的思維可以提高預測的概率。你可以分3個步驟來預測：

1.分解問題

簡單來說就像小學生做套用題的感覺，先列出要解決的問題是什麽？已知條件有哪些？

2. 給出主觀判斷

不是瞎猜，而是根據自己的經歷和學識來給出一個主觀判斷。

3.搜集新的資訊，最佳化主觀判斷

持續關於你要解決問題相關資訊的最新動態，然後用獲取到的新資訊來不斷調整第2步的主觀判斷。如果新資訊符合這個主觀判斷，你就提高主觀判斷的可信度，如果不符合，你就降低主觀判斷的可信度。

比如我們剛開始看到「人工智能是否造成人類失業」這個資訊，你有自己的理解（主觀判斷），但是當你學習了一些數據分析，或者看了些這方面的最新研究進展（新的資訊），然後你根據掌握的最新資訊最佳化了自己之前的理解（調整因子），最後重新理解了「人工智能」這個資訊（後驗概率）。這也就是胡適說的「大膽假設，小心求證」。

概率的基礎知識補充：

參考資料：

YouTube英文影片【Thomas Bayes: Probability for Success】

YouTube英文影片【Everything You Ever Wanted to Know About Bayes' Theorem But Were Afraid To Ask.】

貝葉斯垃圾郵件過濾器： http://www. paulgraham.com/spam.htm l

貝葉斯垃圾郵件過濾Wiki： https:// en.wikipedia.org/wiki/N aive_Bayes_spam_filtering

貝葉斯推斷及其互聯網套用（一）

【聯邦黨人文集】背後的統計學幽靈