趣味の統計

心理統計のはなし(偏差への偏愛ともいう)。Web上に散らばっている「アンケート」へのつっこみ。その他。

シグマくんのはなし #20

設定の復習

2つの学習センターA、Bで、面接授業を受講していた学生10人ずつに、今学期の受講単位数をたずねたところ、次のようになりました。20人全体の平均は7.3でした。

では、前回の最後に示した手順に沿って、計算していきましょう。

平均が同じだったと仮定する

まず、2つの群を比較しても意味がない、要するに差が全くないという状況を仮定して、それぞれの群の分散を計算していきましょう。実際に計算すると、次のようになります。

赤字で注記したように、平均が等しいと仮定して、つまり、2つの群に分けても、平均は20人全体の平均とまったく同じだったと仮定して、偏差を計算しています。ですから、偏差の平均が0にはなりません。赤字の下のセルに書いてあるのが、偏差を平均したものです。
たとえばA群では、本来平均値は7.9ですが、それを7.3と仮定しているので、その差0.6が、偏差の平均値として計算されてきています。B群も同様に考えることができますね。
そして、偏差を2乗して平均した値が、枠線で囲んだセルの値です。

それぞれの群の平均を使って計算する

次に、それぞれの群の平均値を使って計算しましょう。2つの群の平均値には差があって、その差には「意味がある」んじゃないかな? と考えているのであれば、こちらのほうが正しい計算だと思えますよね。結果はこうなります。

青字で、それぞれの群の平均値を示してあります。その下の0は、偏差の平均が0になっていることを示しています。これも当然ですね。その下の枠で囲んであるセルに、偏差の2乗を平均した値、つまりそれぞれの群の分散が示されています。
では、「意味がない」と仮定した状況に比べて、どれくらい分散が小さくなっているかを見てみましょう。比較した値が、うすいオレンジ色の背景のセルに示してあります。A群B群ともに、 -0.36になっています。つまり、本来の平均値(それぞれの群の平均値)を使ったほうが、分散がそれぞれの群で -0.36小さくなっている。逆の見方をすれば、「意味がない」と仮定したほうの計算では、平均値が同じだという仮定をおいてしまったがために、分散がそれぞれの群で 0.36大きくなってしまっている。ということです。

 0.36はどこから?

では、この 0.36はどこから来たのでしょう。
シグマくんのはなし #17で、最終的に次の式を提示しました。
 \displaystyle v' = s^2 + e^2
この式のv'は、本来の平均値とはずれた値を平均値として使ってしまった時の分散、eはその「ずれの大きさ」を示しているのでした。今回の例では、平均値の「ずれの大きさ」は、0.6と-0.6で、この値は偏差の平均値として最初の表に出てきていました。これを2乗すると0.36です。最初に、平均値に差が無いと仮定したときには、分散を0.36だけ大きく計算してしまったのです。

ぼくらの平均値を返せ

しかし相変わらず、この「0.36」はどんな意味なのかは不明のままです。
たしかに、それぞれの群ごとの平均を使わずに、「平均値は同じだ、群ごとに分けて比べる意味なんかないんだ」という無理やりな仮定をおいたために、それぞれの群で0.36ずつ、分散が大きくなってしまっていた。だから、データの立場からすれば、「勝手に平均値が同じだという仮定を置いて、計算しないでよ。ちゃんと僕たちの、群ごとの平均値を使ってよ。ぼくらの平均値を返せ~!」とか思っているに違いないのです。
とはいえ、このデータにおいて、「0.36」が大きいのか小さいのか。つまり、「こんなに差があったんだぞ」と主張する意味があるほど大きなものなのかどうかは、この数字だけ見ていてもわかりません。この話をするためには、いったん分散や分散分析の話を離れて、自由度の話をしなくてはならないのです。
これまで、自由度については何も触れずに話をしてきました。分散の計算でも、常にnで割り算をしていて、「あれ、n-1で割るんじゃないの?」と思った方もおられるでしょう。次回はまず、その話から始めます。