A/Bテストで使用される検定を試してみる

最近A/Bテストについて勉強してました。*1

この前、こちらの記事を拝見しました。

www.rco.recruit.co.jp

この手の検定の話は結構苦手意識があり、良い機会だったので勉強してみたので今回はそのメモです。

期待値コントロール
二項検定
カイ二乗検定
フィッシャーの正確確率検定
t検定
ウィルコクソンの順位和検定
参考文献
感想

期待値コントロール

この記事で書くことは下記になります。

想定する状況
帰無仮説と対立仮説
どういう状況で使用できるか
実例
- 例題の状況設定
- サンプルコード
- 例題の解釈

また、今回勉強の対象にしたのは冒頭で紹介した記事に書いてあった下記の5種類についてです。

二項検定
カイ二乗検定
フィッシャーの正確確率検定
t検定
ウィルコクソンの順位和検定

逆に、それぞれの検定の中身に関する数式を用いた説明に関しては今回は割愛しますので、その点が気になる方は参考文献等を確認していただければと思います。

ここから外れたことは基本的に書かないので、その点ご了承ください。

二項検定

調べてみると下記のような定義になっているようです。

二項検定（にこうけんてい、英: binomial test）は、2つのカテゴリに分類されたデータの比率が、理論的に期待される分布から有意に偏っているかどうかを、二項分布を利用して調べる統計学的検定であり、確率を直接求める方法（正確確率検定）の一つである。二項検定 - Wikipedia

帰無仮説と対立仮説は、

帰無仮説：母比率は基準となる発生率に等しい
対立仮説：母比率は基準となる発生率とは異なる

のようになります。二項分布を前提にしていて、確率変数が前提通りになっているかどうかを判定するみたいなもんですかね。

A/Bテストの文脈だと、何らかの2つの機能のうち、ユーザーがどちらを選択するかについて均等に発生するかどうかについて検定することが考えられます。

状況設定

上の定義に従うと、カテゴリは2つになる必要があるようなので、例えば

コインを1回投げたときの表が出た回数と裏が出た回数が得られたとする。これをn人が試した結果が得られたとき、このときのコインがイカサマだったかを判定したい。

みたいな状況でしょうか。

このとき、

帰無仮説：母比率は基準となる発生率に等しい
対立仮説：母比率は基準となる発生率とは異なる

と考えます。どちらかが大きいといった判定ではなく、どちらかに偏っていることを判定するので、両側検定になります。

サンプルコード

このときの検定は下記のようなコードで実現できます。

docs.scipy.org

p1 = stats.binom_test(num_a, 100, 0.5, alternative='two-sided')
print(p1)

徒然なるままにコードを書いてみるとこんな感じですかね。

例題の解釈

二項検定の帰無仮説は2つのカテゴリが特定の確率（ここではイカサマでない場合を想定して0.5）で発生することだと考えます。

上のコードの例だと、コインを100回投げたとき、裏と表の回数からコインがイカサマだったかを判定することを考えます。

今回は仮想的に表が出る確率を0.4として、100回コインを投げたときの表の回数を算出し、36回という結果が出ています。

このときの二項検定を行ったときのp値は0.006という結果になっています。有意水準を0.05としたとき「帰無仮説は2つのカテゴリが特定の確率（=0.5）で発生する」という帰無仮説が棄却され、2つのカテゴリが同じ確率で発生したとは言えないということになり、イカサマコインだったということがわかるんですね。

カイ二乗検定

カイ二乗検定は別名「独立性の検定」と言うそうです。*2

調べてみると下記のような定義になっているようです。

カイ二乗検定とは帰無仮説が正しいとしたもとで、検定統計量が（近似的に）カイ二乗分布に従うような仮説検定手法の総称です。代表的なものとして、ピアソンのカイ二乗検定、カイ二乗の尤度非検定、マンテル・ヘンツェルのカイ二乗検定、イェイツのカイ二乗検定などがあります。カイ二乗検定のわかりやすいまとめ | AVILEN AI Trend

ふむふむ、何もわからん。ということで例題を見ていきます。