どんなときに使うのか
次のようなデータを扱うときに用います.
- 性別,カテゴリ,選択肢などの分類データ
- 人数や回数などの度数
- 表の形で整理できるデータ
度数のずれから関連の有無を調べる検定
カイ二乗検定は, カテゴリデータの度数 を用いて, 変数間に関連があるかどうかを調べる検定です.
平均を比較するt検定や分散分析とは, 考え方が大きく異なります.
次のようなデータを扱うときに用います.
ある授業について, 性別と満足度の関係を調べたいとします.
| 満足 | 不満 | 合計 | |
|---|---|---|---|
| 男性 | 30 | 10 | 40 |
| 女性 | 20 | 20 | 40 |
| 合計 | 50 | 30 | 80 |
カイ二乗検定では, 次の2つを比較します.
各セルの期待度数は, 次の式で求められます.
$ E = \frac{(行の合計) \times (列の合計)}{全体の合計} $
例えば, 「男性 × 満足」の期待度数は,
$ E = \frac{40 \times 50}{80} = 25 $
各セルについて, 観測度数 $O$ と 期待度数 $E$ のずれを計算します.
$ \frac{(O - E)^2}{E} $
これをすべてのセルについて足し合わせたものが, カイ二乗値です.
$ \chi^2 = \sum \frac{(O - E)^2}{E} $
観測度数と期待度数のずれが大きいほど, $\chi^2$ の値も大きくなります.
自由度は, 次の式で求められます.
$ \text{自由度} = (行数 - 1)(列数 - 1) $
今回の例では, 自由度は $(2 - 1)(2 - 1) = 1$ です.
カイ二乗分布を用いてp値を求めます.
p < 0.05 であれば, 2つの変数の間に 有意な関連がある と判断します.
カイ二乗検定の結果, 性別と満足度の間に有意な関連が認められた ($\chi^2$(1) = 6.4, p < .05).