更容易解釋 社會 A/B 測試 使用這個類別比:
假裝你以前從未見過狗(在這裡與我合作。你站在你最喜歡的人行道上,看到一個經過。它是粉紅色的。基於事先不知道狗應該是什麼樣子,你現在可能相信所有的狗都是粉紅色的。太奇怪了
然後你看到第二隻狗經過。是黑色的有了這種新知識,你現在認為50%的狗是粉紅色的,50%是黑色的。在這一點上,你無法知道,粉紅色的狗是一個離群值,你可能再也看不到的東西了。
讓我們把它帶回現實吧。你知道狗長什麼樣當你看到一隻粉紅色的狗,你立即認識到它是不尋常的,事實上,不可能沒有染料。然而,你現在可以允許一些小比例的狗是粉紅色的。恭喜你,你用貝葉斯的思想來表示狗的顏色!
這與 A/B 測試有什麼問題?顯而易見,我們能夠識別狗的顏色中的異常值,但在查看轉化、點擊或參與度時,要應用這種思維就更加困難了。讓我們舉一個例子。
現在,您不是站在人行道上享受新鮮空氣,而是坐在辦公桌前,觀察您最新的 A/B 測試結果。您看到測試的變體 1 具有可敬的 5% 點擊率。變異 2 看起來甚至更好,為 26%。你拍拍自己的背部,因為找到標題,將參與400%更好!
"但是等一下,"我聽到你說。"26% 的點擊率?這肯定看起來像一個粉紅色的狗。事實上,它可能是。現在,您已經將貝葉斯思維應用於 A/B 測試,通過這樣做,您阻止了自己發送@channel Slack 消息,宣佈您的 A/B 測試能力。相反,您將首先對結果應用嚴格的分析。
下面是操作操作。
我們的目標
讓我們讓這一點更具體一點。我們將使用由我們的出版合作夥伴提供的真實範例 社交 A/B 工具 以運行 A/B 測試。這個特定的客戶想要測試Facebook帖子的介紹副本。以下是變化:
變異 1:
"跟隨米奇·倫茨,米克爾·邦和馬克·索洛斯在《伯頓禮物》第三集。觀看下文。
變異 2:
"伯頓親的生活。
我們想瞭解這兩個帖子中哪一個在 Facebook 上表現最好,以及多少。為此,我們將將每個變體發佈到發佈者受眾的小代表性示例,並跟蹤每個變體隨時間的變化的表現。幸運 社交 A/B 為您自動執行此過程。一段時間后(通常幾分鐘),我們將從Facebook接收數據。這才是真正的樂趣開始的時候。
A/B測試結果分析的幼稚方法
計算帖子性能的最簡單方法是:
- 取得每個變數的點選次數和覆寫面
- 按覆蓋範圍劃分點擊率,以取得點擊率 (CTR)
- 計算一個比另一個好多少
更複雜的測試人員將使用樣本大小計算機來驗證樣本是否足夠大。這是一個關鍵步驟。但我們不相信這已經足夠了。原因如下...
假設在 20 分鐘內向具有代表性的示例受眾公開這兩個變體後,我們會收到以下結果:
- 變異 1:46 次點擊,866 次展示 = 5.3% CTR
- 變異 2:8 次點擊,676 次展示 = 1.2% CTR
在本例中,變異 1 比變體 2 多 340%。合法?快速的 chi 平方測試驗證我們有足夠的數據來形成結論,因此我們感到自信。
但現在讓我們給它粉紅色的狗測試。您上次發佈驅動器超過 5% 的點擊率是什麼時候?從來 沒有?好吧,這是這個后突發新聞,或關於 白色和金色的連衣裙?不?是關於粉紅狗的故事?也許點擊率值得再看一眼。
這種方法忽略了你帖子上通常發生的事情的現實,為極其不準確的假設打開了大門。它仍然可以準確地預測更好的變化,但有多好?如果變體 1 在 866 次展示次數上點擊 46 次,它真的會獲得 460 次 8,660 次展示?這是可能的,但是當形成一個重要的編輯決定,並聲稱A/B測試的勝利時,最好是站在謹慎的樂觀一邊,而不是樂觀。因此,讓我們使用相同的數據,但考慮到我們以前的知識。
貝葉斯方法
當你認識到粉紅色的狗是一種異常,你這樣做,因為你事先知道(或相信)狗的自然顏色。你也增加了這個新的數據點(一隻粉紅色的狗)到你的知識,使其成為你未來的自我新的先驗信。這是貝葉斯思想的基本概念。這是我們在分析測試結果時需要做的。為什麼?因為你對內容和受眾通常的表現有大量瞭解。在預測未來績效時,沒有理由忽略這些知識。
我們面臨的第一個挑戰是量化我們先前對 Facebook 帖子性能的信念。這種數學先驗的信念需要代表兩件事:
- 您通常的點擊率
- 帖子之間點擊率的典型差異
對於我們示例中的發佈者,大多數 Facebook 帖子的點擊率在 1% 到 2% 之間,沒有太大的差異。我們可以表示這是平均值和標準差,但對於我們需要進行的計算來說,更有用的是將知識表示為所謂的 alpha (#) 和 beta (#) 參數。開始:魔法。
此發佈器的 *和 * 分別為 12.92 和 842.22。我們將討論如何在雨天計算這些。現在,只需知道它們代表帖子的預期點擊率,並且其幅度與點擊率的方差成反比。
要仔細檢查我們的工作,讓我們使用我們的 +和 + 來計算我們預期的點擊率。我們可以用一個簡單的公式來做到這一點:
預期 CTR = = / ( + + + * = = 12.92 / (12.92 = 842.22) = 1.5%
這與我們先前對出版商的發佈性能的看法相符。我們如何用它來預測我們帖子的未來點擊率?這是神奇的,因為它死簡單:
預測 CTR = (咔嗒聲 + ) / (覆寫範圍 + + * * )
什麼?八年級數學?得愛上它因此,讓我們用它來計算我們的預測點擊率,因為數據來自我們上面談到的實際測試:
分鐘 | 變異 1 點擊/覆寫 + CTR | 變異 2 點擊/覆寫 + CTR | 變異 1 預測 CTR | 變異 2 預測 CTR |
---|
0 | 0/0 – 0% | 0/0 – 0% | 1.5% | 1.5% |
5 | 2/200 – 1% | 4/174 – 2.3% | 1.41% | 1.64% |
10 | 12/260 – 4.6% | 4/290 – 1.4% | 2.23% | 1.48% |
15 | 36/698 – 5.2% | 6/578 – 1% | 3.15% | 1.32% |
20 | 46/866 – 5.3% | 8/676 – 1.2% | 3.42% | 1.37% |
在第 0 分鐘,在測試帖子之前,公式會向我們提供一個與之前的信念相等的預測點擊率。很有意義,因為如果我們沒有任何新信息,我們最有可能的結果就等於我們先前的信念。
現在,看看第20分鐘,我們觀察到變異1的5.3%的點擊率。我們很容易宣佈這種變化有多好,但當我們將我們之前的知識考慮在內,無論是此發行者的平均點擊率,還是在 #和 α 參數中表示的預期方差,我們就越有可能認為實際點擊率為 3.4%。
為了總結此示例的直覺,讓我們假設我們的人口數量要大得多,而變體 1 的點擊率實際上是 5.3%。為了瞭解此公式的工作原理,我們將變體 1 的 20 分鐘結果乘以 1,000。
預測 CTR = (46000 = 12.92) / (866,000 = 19.92 = 842.22)
預測 CTR = 5.3%
您可能會注意到兩件事:
- 隨著我們獲得更多的數據,我們變得更加確信觀察到的點擊率實際上是我們預測的點擊率
- * 和 α 參數越大,我們需要移動預測的資料就越多
恭喜你,你完成了貝葉斯部分的分析!現在,讓我們用我們的預測來挑選一個贏家。
測量精度
在討論精度之前,我們必須討論概率密度函數。控制自己,最令人興奮的部分尚未到來!
α 和 α 參數構成 Beta 分配的概率密度函數 (PDF) 的基礎。在英語中,這告訴我們我們的點擊率是一定值的可能性。範例:
在上述 PDF 中,我們可以看到此帖子最有可能的點擊率約為 3.4% 測量是可信的間隔,這是 PDF 的 95% 分佈,在我們的例子中,大約是 2.2%。隨著我們收集更多的數據,並對我們的預測更有信心,精度提高,這對於實際挑選贏家至關重要。下一步我們將解決這個問題。
計算概率
我們終於到了是時候弄清楚我們更好的變化是否真的是贏家了!讓我們從可視化開始。
下面是兩個變體的 PDF,在一個圖表上:
您可以看到,變體 1 的精度小於變異 2,即使我們的數據略多一些。這是因為它偏離了預期的,以前的點擊率相當遠。即便如此,PDF 之間幾乎沒有任何重疊,這對我們的測試來說是一件非常好的事情!
變異 2 實際上比變異 1 更好的唯一方法是,如果變體 2 的實際未來點擊率超過 2%,並且未來變體 1 的實際點擊率小於約 2.2%,則每個點擊率都不太可能。這由兩個 PDF 的小重疊表示。對於這兩種異常的發生,就像在一枚公平硬幣上連續翻轉幾十個頭。不會發生
因此,在這一點上,我們非常有信心,變化1是贏家,它應該驅動約3.4%的CTR,而變化2的1.4%。
現在我們可以看到它,讓我們計算一下。
有趣的(慢)方式
衡量一個變體真正優於另一個變體的概率的有趣方法是運行瑪律科夫鏈蒙特卡羅類比。對於我們的測試結果,在 1,000,000 次反覆運算之後,我們得到變異 1 是最佳的概率為 0.999 的概率。偉大!
缺點是 MCMC 實際上需要軟體來做一百萬次的事情。誰有那種時間?
無聊(快速)的方式
對我們來說幸運的是,有 聰明的人誰設計了聰明的公式 所以我們不必自己類比它。
插入數位並等待幾毫秒后,我們看到變異 1 優於 1.0 概率的 2。勝利是我們的!
讓我們回顧一下我們為完成測試成功而採取的所有步驟:
- 我們事先相信我們職位的預期點擊率,由 *和 * 參數表示
- 我們向受眾的代表性樣本展示了每種變體,並收集點擊量,並在我們進行訪問時從 Facebook 訪問數據
- 我們使用我們先前的信念和從測試中提取的數據來計算每個帖子的可能點擊率
- 我們查看了後人的 PDF,以確保我們有足夠的資料,根據所需的精度
- 我們使用一個花哨的公式來計算我們性能更好的變異實際上是最佳概率
現在是時候@channel #general你的A/B測試結果,知道你的贏家是合法的,它將推動更多的社會參與和點擊回到你驚人的內容。這是希望關於粉紅色的狗。
進一步閱讀
這中的概念 部落格 發佈和我們工具使用的方法從幾個數據科學家和統計學家的深思熟慮的工作中獲益匪淺。我們強烈建議通過閱讀它們的作品來更深入地瞭解這些概念:
- A/B 測試的工作原理
- 無知不再:關於A/B測試統計的崩潰課程
- 統計顯著性不等於有效性
- 如何不執行 A/B 測試
- 使用 Python 中的分割區塊模型進行 A/B 測試
- 貝葉斯強盜
- A/B 測試的統計建議
- 貝葉斯A/B測試的公式
- 瞭解經驗貝葉斯等級建模
- 整個系列,"使用棒球統計"是突出的。
想瞭解更多資訊?
在 Facebook 上測試內容的 A/B 是一個複雜的主題。我們為您介紹了問題, 您可以閱讀更多內容:
把自己放在駕駛座上,開始為 Facebook 測試您的內容。 註冊我們的 社交 A/B 工具 它完全免費 - 那麼為什麼不旋轉一下呢?