カイ二乗検定

度数のずれから関連の有無を調べる検定

この検定は何をするもの?

カイ二乗検定は, カテゴリデータの度数 を用いて, 変数間に関連があるかどうかを調べる検定です.

平均を比較するt検定や分散分析とは, 考え方が大きく異なります.

どんなときに使うのか

次のようなデータを扱うときに用います.

具体例

ある授業について, 性別と満足度の関係を調べたいとします.

満足 不満 合計
男性 30 10 40
女性 20 20 40
合計 50 30 80

何を比べているのか

カイ二乗検定では, 次の2つを比較します.

期待度数の計算

各セルの期待度数は, 次の式で求められます.

$ E = \frac{(行の合計) \times (列の合計)}{全体の合計} $

例えば, 「男性 × 満足」の期待度数は,

$ E = \frac{40 \times 50}{80} = 25 $

ずれを数値化する

各セルについて, 観測度数 $O$ と 期待度数 $E$ のずれを計算します.

$ \frac{(O - E)^2}{E} $

これをすべてのセルについて足し合わせたものが, カイ二乗値です.

検定統計量

$ \chi^2 = \sum \frac{(O - E)^2}{E} $

観測度数と期待度数のずれが大きいほど, $\chi^2$ の値も大きくなります.

自由度

自由度は, 次の式で求められます.

$ \text{自由度} = (行数 - 1)(列数 - 1) $

今回の例では, 自由度は $(2 - 1)(2 - 1) = 1$ です.

結果の解釈

カイ二乗分布を用いてp値を求めます.

p < 0.05 であれば, 2つの変数の間に 有意な関連がある と判断します.

論文での書き方(例)

カイ二乗検定の結果, 性別と満足度の間に有意な関連が認められた ($\chi^2$(1) = 6.4, p < .05).

注意点