前後データ(Pre-Post)の比較分析で使う統計手法

公開日
2022/01/11
更新日
2022/01/11
情報種別
手段や方法の説明
notion image
広告運用の理想的な効果検証方法のひとつに「ABテスト」あります。Google 広告にも「下書きとテスト」というABテストのための便利な機能が搭載されています。
  • Google 広告ヘルプ:キャンペーンの下書きとテスト
しかし、状況によってはABテストが実施できないケースもあるかと思います。その場合、よく採用されるがpre-post分析(前後比較) での効果検証です。
pre-post分析を統計学的な確からしさを踏まえて検証するには、いくつか抑えておくべき点があります。今回はそれらを具体例とともにご説明します。
link image

概要

前提として、pre-postで比較する対象が、「平均値」なのか「比率」なのかによって採用すべき統計手法が異なります。
notion image
以下より、具体的な例(サンプルデータ)を用いて手法の使い方をご説明します。
※これ以外にも、例えば「一元配置分散分析」といった手法もあるようなのですが、筆者は統計の専門家ではないため、ここではこれ以上の深堀りを控えたいと思います。本記事では、「統計的に厳密で理想的な検証ができているわけではないが、日常的な広告運用の意思決定には役立てることのできる、基礎分析としての手法」としてご説明できればと思います。

①平均の検定(t検定)

検証できること

A群の平均値、B群の「平均値」は、統計的有意な差があるか?

問題例

🤔
12/11(金)から、IMPを増やすためにある施策を実施した。pre-postで平均値を比較すると増加しているが、これは統計的に有意であると言えるか? サンプルデータ
 
notion image

回答

平均の比較ですから、t検定を使います。Excelに T.TEST という便利な関数があるのでそれを使うと良いです。出てきた値(p値)は、小さければ小さいほど有意であると判断してよいです。上記の例では、0.01を下回っていたので、99%有意でIMPが増えていると結論付けることができます。(サンプルデータファイル参照)
notion image

補足

t検定の概念としては、「A群とB群の平均値と標準偏差が検定のもと」になっています。ですので、データの「ブレが少ない」「N数が多くなる」ほど有意性が高まる傾向にあります。要するに「これらが正規分布すると仮定したときに、端っこ何%のとこで重なる?」についての答えを出しています。上記の例で言えば、「端っこ0.57%の部分だけで結論が逆になるといえる」ということになります。
この手法を扱うときの注意点としては、「あくまで平均値の大小を統計的に比較しているだけ」という点です。ですので、例えばIMPを上昇に影響を与えた要素が複数存在する場合は、当然ながら、この手法だけでは評価することは難しいです。

②比率の検定(χ二乗検定)

検証できること

A群の比率、B群の比率は、統計的有意な差があるか?

問題例

🤔
12/11(金)から、クリック率を増やすためにある施策を実施した。pre-postでクリック率を見ると高くなっているが、これは統計的に有意であると言えるか? サンプルデータ
 
notion image

回答

比率の比較ですから、χ二乗検定を使います。t検定と同じく、Excelに CHISQ.DIST.RT という便利な関数があるのでそれを使うと良いです。出てきた値(p値)は、小さければ小さいほど有意であると判断してよいです。上記例では、0.01を下回っていたので、99%有意でクリック率が高くなっていると結論付けることができます。
notion image

補足

χ二乗検定の概念としては、「A群とB群の分母・分子・その比率が検定のもと」になっています。ですので、N数が多くなるほど有意性が高まる傾向にあります。
また、以下の統計処理をしています。(詳細の説明は控え、参考程度に記載しておきます)
  • 期待度数(もし全体の比率だったとしたら・・の数)を元データを比較したときに、それとどれくらい差分があるのか?で検定している。
  • これらがχ二乗分布すると仮定したときに、2群が独立しているか?を検定している。
  • t検定は両側検定するが、χ二乗検定は片側検定(右側)で行う。
注意点は、t検定と同じく、CTRの上昇に影響を与えた要素が複数存在する場合は、当然ながら、この手法だけでは評価することは難しいです。

最後に

統計の分野は奥が深く、厳密な確からしさを確認するには高い専門性と環境づくりが必要です。(正規分布しているの?対応のある標本なの?etc.)ですので、本記事の目指すところは、「単純にpre-postで平均を比較する」といったことから卒業して、
  • 基礎分析ですが、統計的な確からしさも見てみました。
  • ざっくりですが、Good or Bad の意思決定できるレベルのN数はあると思います。
程度のコミュニケーションができるようになることのお役に立てばと思います。

参考にした記事

比率の検定とは|市場調査ならインテージ
いま無作為に選ばれた主婦10人のうち、ブランドAを使用している人が6人、ブランドBを使用している人が4人であったとします。比率にすれば60%対40%ですが、これらのデータから、「ブランドAがブランドBより使用率が高い」と結論することができるでしょうか。これは2つの比率の差が統計的に有意であるか否かという問題で、これをはっきりさせることが「比率の検定」です。 例えとして、東京と大阪と異なる地域における、ある製品の使用率 p1 と p2 の差の検定するとします。それにはまず、両地域が同じ使用率であると仮定して、p1 と p2 の加重平均Pを計算します。検定式はこのPおよび両地域の調査対象数 n1、n2 を用いて となり、Zが正規分布するものとして有意差を判定することができる。ただしそれには両地域の対象数がある程度大きいことを前提としています。 例として、東京における2つのブランドの使用率 p1 と p2 の差の検定するとします。調査では、同じ対象者集団nについて各ブランドの使用の有無を質問しています。検定式は、両ブランドの重複使用率を p12 として(重複がなければ p12 = 0 )、 となり、やはりZが正規分布するものとして判定し、対象数がある程度大きいことを前提としています。 以下に、架空のデータですが具体的な計算例をあげています。
 

link image
\ SHARE ON /
👥メンバー情報