怎樣全面客觀的評價ab？

2018-07-20娛樂

1. 什麽是AB實驗？

在同一時間維度，讓相似的群體體驗不同的實驗（策略或功能），基於實際業務數據的分析結果輔助決策

2. AB實驗的流程是什麽？

1）確定實驗評估指標

2）流量分配：實驗的分層分流方案

3）確定實驗有效天數：實驗的有效天數即為實驗進行多少天能達到流量的最小樣本量。

4）策略上線（灰度上線）

5）實驗效果分析

3. AB實驗涉及的分析方法有哪些？

3.1 分層分流方法

不同實驗間的數據，應該盡量正交

X1實驗中存在2000個X2實驗的樣本，那麽這2000個樣本的分布與在X2實驗中樣本分布是一致的

3.2 假設檢驗

用於判斷實驗的差異

假設檢驗只能表明，實驗組比對照組提升的概率，但不能表明提升的程度

舉例：實驗組比對照組點選率平均高30%、置信度水平為95%，說明實驗組比對照組提升的概率大於95%，不能說明實驗組比對照組提升30%的概率大於95%

檢驗過程如下：

（1）判斷兩組樣本的正態性：KS檢驗

滿足正態性則進行步驟（2），否則使用非參數檢驗（Wilcox檢驗）

（2）判斷兩組樣本的變異數是否已知

如果已知則使用Z檢驗（變異數已知檢驗均值），否則進行步驟（3）

（3）判斷兩組樣本的變異數是否相等（變異數齊性檢驗-F檢驗）

如果相等則使用T檢驗（變異數相等的均值檢驗），否則樣本數據做變換（X/var(x)、Y/var(y)），再做變異數調和後的T檢驗（welch T test）

最小樣本量：

統計功效在80%時，每組樣本量>1000

R語言：Power.t.test(power=0.8, delta=, sig-level =0.05)

4. AB實驗重點註意的問題

4.1 分流問題

AB兩組均勻分流：體現為AA實驗無差異

小樣本量：一般>1000

4.2 缺乏對照組

不建議：選擇90%的作為實驗組、剩余10%直接作為對照組（實驗組與對照組不在同一「實驗層」）

未上AB實驗的對照組，可能被其他策略汙染

4.3 延滯效應

前一個策略實驗結束後，可能會對下一個策略有滯後的行銷，因此建議在下一個策略時重新分流

4.4 多重檢驗問題

AB實驗應該盡量減少核心觀察指標的數量

原因：觀察一個指標置信度95%，同時觀察兩個指標置信度則降為95%*95%=90.25%，同時觀察10個指標置信度為0.95^10=60%，幾乎與隨機猜測無差異。

如果要同時觀測多個指標，則要提升每個指標的置信度，提升方法采用Bonferroni校正（即在同一個數據集上，同時檢驗n個獨立假設，那麽用於檢驗每個假設的統計學顯著水平應為僅檢驗一個假設時顯著水平的1/n）

舉例：當同時觀察10個指標，又希望實驗的置信度在95%，應該保持每個指標的置信度水平為（1-0.05/10）=99.5%

4.5 人群不同時

不同時刻人群已發生改變，實驗中不要改動流量或策略條件，或臨時增加實驗組，即實驗中啥也不要動

4.6 震蕩效應

使用者在感受到策略變化的前2-3天內一般處於新鮮感，部份使用者會積極探索策略變化，而後續熱情逐漸退去，直至收斂。因此，一般選擇使用者行為收斂的2-3天作為結束實驗的時機。

4.7 時間波谷效應

不同時間視窗的實驗，只能進行定性比較，不能進行定量比較

原因：不同時間視窗，實驗的人群和行為均已經發生變化，不再具備定量比較的意義

4.8 時間視窗效應

短期實驗效果，不見得長期持續（由於震蕩效應也可知道），重點驗證實驗當時的假設是否成立

如果要評估多個策略的綜合實驗效果，建議設定長期對照組進行評估

4.9 辛普森悖論

體現為「AB實驗vs全量上線」後的效果反轉

4.10 網絡效應

體現為「實驗組vs對照組」的樣本不獨立，存在使用者局部內相互行銷

1）實驗組帶動對照組：實際收益>評估值

舉例：比如一些使用者得知其他使用者某項功能上存在差異，也想要點開試試，這樣就造成了實驗組帶動對照組的點選率上漲，使得實驗組與對照組在數據上的差距變小，即評估值變小

2）實驗組與對照組有資源競爭：實際收益<評估值

舉例：在某種資源一定的前提下，為實驗組增加資源，則會導致對照組的資源減少，使得實驗組與對照組在數據上的差異變大，即評估值變大

以上重點參考：【策略產品經歷實踐】

人生漫漫，書生海海，我讀你看。

微訊號-book2h、微信名-書生海海