簡単に説明できる ソーシャルA/Bテスト この例えを使って
今まで犬を見たことがないと思ってください。(一緒に考えてみてください。) お気に入りの歩道に立っていると、1匹の犬が通り過ぎるのが見えます。そしてそれはピンク色です。犬がどんな姿をしているかという予備知識がないので、あなたはおそらくすべての犬がピンク色だと信じているでしょう。変な話だ。
すると、2匹目の犬が通り過ぎるのが見えます。それは黒でした。この新しい知識により、あなたは今、犬の50%がピンクで、50%が黒であると考えています。この時点では、ピンクの犬が外れ値であり、二度と見ることができないかもしれないことを知る由もありません。
現実に戻ってみましょう。あなたは犬がどんな姿をしているか知っています。ピンクの犬を見たら、すぐにそれは珍しいことだとわかるでしょう、実際、染料なしでは不可能です。しかし、あなたは今、犬のごく一部がピンク色であることを認めるかもしれません。おめでとうございます。あなたは犬の色にベイズの考え方を適用したのです。
これがA/Bテストとどのような関係があるのでしょうか?犬の色に異常があることを認識するのは当然のことですが、コンバージョンやクリック、エンゲージメントを見るときにこの考え方を適用するのははるかに困難です。例を挙げてみましょう。
歩道に立って新鮮な空気を楽しむのではなく、あなたは今、デスクに座って最新のA/Bテストの結果を観察しています。テストのバリエーション1のクリック率は5%とまずまず。バリエーション2は26%とさらに良好です。あなたは、400%もの効果が期待できるヘッドラインを見つけた自分を褒めています。
"でも、ちょっと待って」という声が聞こえてきそうです。"クリック率が26%?確かにピンクの犬に似ている」という声が聞こえてきそうです。確かにそうかもしれません。あなたは今、ベイズの考え方をA/Bテストに適用し、そうすることで、自分のA/Bテストの能力を宣言する@channel Slackメッセージを送るのをやめました。その代わりに、まずは結果を厳密に分析してみましょう。
その方法は以下の通りです。
私たちの目標
もう少し具体的に説明しましょう。ここでは、ある出版社の協力を得て、実際の例を使ってみましょう。 ソーシャルA/Bツール を使ってA/Bテストを実施しています。このクライアントは、Facebookの投稿の導入部のコピーをテストしたいと考えています。以下がそのバリエーションです。
バリエーション 1:
"Burton Presentsのエピソード3でMikey Rencz、Mikkel Bang、Mark Sollorsをフォローしてみましょう。以下をご覧ください。"
バリエーション2:
"バートンのプロの生活"
この2つの投稿のうち、どちらがFacebookでのパフォーマンスが高いのか、またそのパフォーマンスはどの程度なのかを知りたいと思います。そのためには、パブリッシャーのオーディエンスの小さな代表的なサンプルに各バリエーションを投稿し、各バリエーションのパフォーマンスを長期的に追跡します。幸いなことに ソーシャルA/B がこのプロセスを自動化してくれます。しばらくすると(通常は数分)、Facebookからデータが送られてきます。本当のお楽しみはそこからです。
A/Bテストの結果分析のための素朴なアプローチ
投稿のパフォーマンスを計算する最も簡単な方法は以下の通りです。
- 各バリエーションのクリック数とリーチ数を把握
- クリック数をリーチ数で割って、クリックスルー率(CTR)を算出する。
- 一方が他方よりどれだけ優れているかを計算する
より洗練されたテスターは、サンプルサイズ計算機を使用して、サンプルが有意性を持つのに十分な大きさであることを検証します。これは重要なステップです。しかし,私たちはそれだけでは十分ではないと考えています。その理由は以下の通りです。
例えば、2つのバリエーションを代表的なサンプルオーディエンスに20分間公開した後、次のような結果が得られたとします。
- バリエーション1:46クリック、866インプレッション=5.3%のCTR
- バリエーション2:8クリック、676インプレッション=1.2%のCTR
この例では、バリエーション1がバリエーション2に比べて340%もの差をつけています。正当か?簡単なカイ二乗検定で、結論を出すのに十分なデータがあることが確認できたので、自信が持てました。
しかし、今度はピンクの犬のテストをしてみましょう。最後にクリック率が5%を超えたのはいつですか?一度も?さて、この記事はニュース速報なのか、それとも 白と金のドレス?違う?ピンクの犬の話ですか?クリック率を見てみるといいかもしれません。
この方法では、通常の投稿で何が起こるかという現実を無視し、不正確な仮定をしてしまう可能性があります。それでも、より良いバリエーションを正確に予測できるかもしれませんが、どの程度良いのでしょうか?バリエーション1が866回のインプレッションで46回のクリックを得た場合、実際には8,660回のインプレッションで460回のクリックを得られるでしょうか?可能性はありますが、編集上の重要な決定を下す際や、A/Bテストの勝利を主張する際には、希望的観測に基づく高揚感よりも、慎重な楽観主義の側に立った方が良いでしょう。そこで、同じデータを使って、事前の知識を考慮に入れてみましょう。
ベイズのアプローチ
あなたがピンクの犬を異常だと認識したのは、犬の自然な色についての事前の知識(または信念)があったからです。そして、この新しいデータポイント(1匹のピンクの犬)を自分の知識に加え、未来の自分にとっての新しい事前の信念としました。これがベイズ思考の基本的な概念です。そして、これはテスト結果を分析するときに必要なことです。なぜか?なぜなら、あなたは自分のコンテンツやオーディエンスが通常どのようにパフォーマンスを発揮するかについて、たくさんの知識を持っているからです。将来のパフォーマンスを予測する際に、その知識を無視する理由はありません。
私たちが直面する最初の課題は、Facebookの投稿パフォーマンスに関する事前の確信を定量化することです。この数学的な事前の信念は、2つのことを表す必要があります。
- 普段のクリックスルーレート
- 記事間のクリック率の典型的なばらつき
この例のパブリッシャーの場合、ほとんどのFacebookの投稿のクリック率は1%から2%で、それほど大きなばらつきはありません。これを平均値と標準偏差で表すこともできますが、今回の計算では、アルファ(α)とベータ(β)と呼ばれるパラメータで表す方がより便利です。はじめに:マジック
この出版社のαとβは、それぞれ12.92と842.22です。これらがどのように計算されているかは、また後日ご紹介します。今のところ、これらは投稿の予想クリック率を表しており、その大きさはクリック率の分散と逆相関していることだけ知っておいてください。
この作業を再確認するために、αとβを使って予想クリック率を計算してみましょう。これには簡単な公式があります。
期待CTR = α / (α + β) = 12.92 / (12.92 + 842.22) = 1.5
これは、そのパブリッシャーの投稿のパフォーマンスに関する私たちの事前の確信と一致します。これを使って、どうやって投稿の将来のクリック率を予測するのでしょうか?非常にシンプルな方法なので、魔法のようです。
予測CTR=(クリック数+α)/(リーチ数+α+β
えっ、8年生の数学?いいですね。では、これを使って、上で触れた実際のテストで得られたデータに基づいて、予測されるクリック率を計算してみましょう。
分 | バリエーション1 クリック数/リーチ数 - CTR | バリエーション2 クリック数/リーチ数 - CTR | バリエーション1 予測CTR | バリエーション2 予測CTR |
---|
0 | 0/0 – 0% | 0/0 – 0% | 1.5% | 1.5% |
5 | 2/200 – 1% | 4/174 – 2.3% | 1.41% | 1.64% |
10 | 12/260 – 4.6% | 4/290 – 1.4% | 2.23% | 1.48% |
15 | 36/698 – 5.2% | 6/578 – 1% | 3.15% | 1.32% |
20 | 46/866 – 5.3% | 8/676 – 1.2% | 3.42% | 1.37% |
0分目、つまり投稿をテストする前の段階で、この計算式は事前に考えていたものと同じクリック率の予測値を出します。新しい情報がなければ、最も可能性の高い結果は事前の確信と同じになるので、理にかなっています。
次に、分20を見てみましょう。ここでは、バリエーション1のクリック率が5.3%でした。しかし、このパブリッシャーの平均クリック率と、αとβパラメータで表される予想分散の両方を考慮すると、実際のクリック率は3.4%である可能性が高いことがわかります。
この例の直感を深めるために、もっと大きな母集団がいて、バリエーション1のクリック率が実際には5.3%であると仮定してみましょう。この計算式がどのように機能するかを確認するために、バリエーション1の20分間の結果を1,000倍してみます。
予測CTR=(46000+12.92)/(866,000+19.92+842.22
予測CTR=5.3
2つのことに気づくかもしれません。
- データが増えれば増えるほど、観測されたクリック率が実際に予測されたクリック率であることに自信が持てるようになります。
- αとβのパラメータが大きいほど、予測を動かすために必要なデータ量が多くなります。
おめでとうございます!これで分析のベイズ部分が完了しました。それでは、私たちの予測を使って勝者を選んでみましょう。
測定精度
精度の話をする前に、確率密度関数の話をしなければなりません。気を引き締めて、これからが一番の楽しみです。
αとβのパラメータは、β分布の確率密度関数(PDF)の基礎となるものです。英語では、クリック率がある値になる可能性を示しています。例
上のPDFでは、この記事の最も可能性の高いクリック率が約3.4%であることがわかります。 の測定は、信頼性のある間隔これは、PDFの95%分布であり、ここでは約2.2%となります。より多くのデータを収集し、予測に自信が持てるようになると、精度が向上しますが、これは実際に勝者を選ぶ上で重要なことです。これは実際に勝者を選ぶのに重要なことです。
確率の計算
ついに到着しました。私たちのより良いバリエーションが、実際に勝者となるかどうかを見極める時が来たのです!まずはイメージしてみましょう。
両方のバリエーションを1つのチャートにまとめたPDFがこちらです。
データ数がわずかに多いにもかかわらず、バリエーション1の精度はバリエーション2よりも低いことがわかります。これは、予想される事前のクリック率からかなり離れてしまっているためです。それでも、PDF間のオーバーラップはほとんどなく、これは我々のテストにとって非常に良いことです。
バリエーション2がバリエーション1よりも実際に優れている唯一の方法は、バリエーション2の実際の将来のクリックスルー率が2%以上で、バリエーション1の実際の将来のクリックスルー率が約2.2%以下の場合ですが、それぞれ可能性は極めて低いです。これは、2つのPDFの重なりが小さいことからもわかります。両方の異常が発生することは、公平なコインで何十回も連続してヘッドを弾くようなものです。それはありえないことです。
この時点では、バリエーション1が勝者であり、バリエーション2の1.4%に対し、バリエーション1は約3.4%のCTRを獲得できると確信しています。
見えるようになったので、計算してみましょう。
楽しい(遅い)方法
あるバリエーションが他のバリエーションよりも本当に優れている確率を測定する楽しい方法は、マルコフ連鎖モンテカルロシミュレーションを実行することです。今回のテスト結果では、1,000,000回の繰り返しの後、0.999の確率でバリエーション1が最も優れていることがわかりました。すばらしいですね。
欠点は、MCMCでは実際にソフトウェアに100万回の作業をさせる必要があることです。誰がそんな時間を持っているのでしょうか?
つまらない(速い)方法
幸運なことに、私たちには 巧妙な計算式を編み出した頭脳派 のように、自分たちでシミュレーションする必要はありません。
数字を入力して数ミリ秒待つと、1.0の確率でバリエーション1が2よりも優れていることがわかります。勝利は我々のものです。
テストが成功したと結論づけるために行ったすべてのステップを振り返ってみましょう。
- 私たちは、αとβのパラメータで表される投稿の予想クリック率の事前の信念を形成しました。
- 視聴者の代表的なサンプルにそれぞれのバリエーションを表示し、Facebookからクリック数とリーチ数のデータを収集しました。
- 事前に考えていたことと、テストで得られたデータをもとに、各投稿のクリック率を算出しました。
- 十分なデータがあることを確認するために、後置のPDFを見て、必要な精度に基づいて
- 私たちは、より優れた性能を持つバリエーションが実際にベストである確率を計算するために、複雑な公式を使用しました。
今こそ、A/Bテストの結果を@channel #generalに報告しましょう。その結果、あなたの勝者が正当なものであり、ソーシャルエンゲージメントを高め、あなたの素晴らしいコンテンツへのクリックを促すものであることがわかります。願わくば、ピンクの犬についても。
参考資料
このブログ記事で紹介している概念や、私たちのツールで使用している手法は、何人かのデータサイエンティストや統計学者の考え抜かれた仕事から大きな恩恵を受けています。彼らの作品を読んで、これらのコンセプトをより深く理解することを強くお勧めします。
- A/Bテストの仕組み
- Ignorant No More:A/Bテスト統計のクラッシュコース
- 統計的有意性と妥当性は一致しない
- A/Bテストを実施しない方法
- Pythonでの階層モデルによるA/Bテスト
- ベイズ・バンディッツ
- A/Bテストの統計的アドバイス
- ベイズ型A/Bテストの計算式
- 経験的ベイズ階層モデリングの理解
- このシリーズの中でも「野球の統計を使う」というのは秀逸です。
もっと詳しく知りたいですか?
FacebookでのコンテンツのA/Bテストは複雑なテーマです。私たちはあなたをカバーしています - あなたはについての詳細を読むことができます。
Facebook用コンテンツのA/Bテストを始めてみませんか? ご登録には1分もかかりません。 ソーシャルA/Bツール 無料でご利用いただけますので、ぜひ一度試してみてください。