趣味の統計

心理統計のはなし(偏差への偏愛ともいう)。Web上に散らばっている「アンケート」へのつっこみ。その他。

シグマくんのはなし #23

設定の再確認

自由度の話をしたので、分散分析の話に戻りましょう。#19と#20で出した設定をもう一度復習します。そして、母集団と自由度も、確かめていきましょう。

母集団

この調査では、放送大学の2つの学習センターAとBで、面接授業に参加していた学生それぞれ10人に回答してもらったのでした。標本はこの20人として、母集団は何になるのでしょう。いろいろ考えられるのですが、細かい議論はここではしません。ざっくりと、「放送大学の学生」としておきます。そして、面接授業AとBとで研究分野が大きく異なるので、研究分野への興味関心によって、受講単位数が変わるか、という(無理やりな)設定ということにしておきます!(汗)
無理やりな設定だと自覚しております。いずれまとめるときには設定し直しま~す。

自由度

自由度はどうでしょう。
まず、20人全員の受講単位数の分散を考える時には、自由度は 20-1=19 です。しかし、学生をAとBの2つの群に分けてそれぞれの分散を計算するときには、どちらも n=10 ですから、自由度はそれぞれ 10-1=9 になりますね。#20では、どちらも、偏差平方和を10で割り算していますから、計算し直す必要があります。
それと、学生を2つの群に分けたことで、自由度が1つ減っているのに気づきましたか? 20人全員で分散を計算するときには19、2つの群に分けると、それぞれ9なので、合わせると18。数が合わないような気がしませんか?
そんなの気にしない、という方もおられるでしょうが、ここは気にしてください。分散分析のもっとも重要なポイントといってもいいかもしれないのです。

分散を計算し直そう

では、自由度で割る、という方法で、分散を計算し直していきましょう。まず、20人全員をひとまとまりに考えたときの分散(母分散の推定値)です。

ここからは、A群とB群をまとめて計算していきます。別々に計算する場面も出てくるのですが、もともと「ひとまとまりのデータ」ですから、まとめて計算するべきなのですね。
平均値が7.3(これは20人分の平均値です)と仮定したときの、偏差2乗を求めて、それを合計して、自由度で割ります。これが分散です。次に計算する分散と区別するために、データ全体を使って求めた分散という意味で、「全分散」と表現します。統計学の教科書では、自由度で割る前の値のほうを、「全平方和」と表現していて、ここで求めた「全分散」は、単に「不偏分散」(母集団の分散の推定値)と書いていることの方が多いと思います。

群ごとに計算した平均値を使うと

次に、A群、B群に分けて計算した平均値を使って、分散を計算しましょう。平均値が異なるので分けて計算していますが、2つをまとめて母分散の推定値であると解釈します。
(注:ここが非常にわかりにくくなってしまっています。帰無仮説について解説しないと、2つの群をまとめることの意味が説明できないと思います。帰無仮説について、平均値を丸めると…の後くらいに追加しないといけませんね。で、平均値をずらすことによる分散の過大推定分について、帰無仮説と対立仮説の文脈で語ると、ようやくここに話がつながりそうな気がします。著者覚え書き。)

それぞれ、自分の群の平均値を使って求めたを偏差を2乗して、合計して、自由度で割ります。上で求めた「全分散」と比較するために、両方の群をまとめて計算しています。どうして別々に計算しないの? と思われるかもしれませんが、先に書いたように、これは「ひとまとまりのデータ」だからです。
(注)このことについて、最初から「ひとまとまりのデータ」であることを示して、合計して計算して提示する方が混乱が少なった。分散分析のはじめの部分を書き直す必要がある。以上、著者覚え書き。
この分散は、群ごとの平均値、つまり、「これが自分たちの群の平均値なのだ」と、それぞれの群のデータたちが主張する平均値を使ってもなお、データの特徴として得られる「データのバラつき具合」の指標です。難しい言い方をしていますが、要するに、「A群とかB群とか、そういう違い以外のいろいろな理由で、どうしても生まれてきてしまう個人差」を、なんとか数値化したもの、と考えておきましょう。
この「分散の意味」についても、もっと早い段階で出しておくべき。著者覚え書き。
群に分けても、なお群のなかに残ってしまう分散、という意味で、以下、「郡内分散」と表現します。統計学の教科書では、自由度で割る前の値のほうを、「群内平方和」と表現していて、自由度で割った値(「郡内分散」)は、「群内平均平方」という言い方をしていることが多いと思います。「平均平方」の「平均」を「自由度で割った」という意味と考えれば、結局同じことを言っているのです。

その差はどこから

さて、前にも述べたように、「全分散」では、データ全体を使って計算した平均値を使っていますから、その平均値と、群ごとの平均値の差の2乗だけ、分散が大きくなってしまうのでした。自由度で割ることによって、以前に述べたような単純な関係ではなくなっていますが、理屈としては同様のことが起こっています。
具体的にどのくらい差があるのかについて、「全分散」と「郡内分散」の差を求めたくなりますが、自由度が異なっているものを単純比較するのは変です。そこで、割り算する前の、「全平方和」と「群内平方和」の差を考えましょう。
「全平方和」(56.2)から「群内平方和」(49.0)を引くと、7.2になります。
これが、全体の平均値ではなく、群ごとの平均値を使うことによって、小さくなった平方和です。
(追記:この「7.2」という数は、自由度で割る前なので、平均値の差を正しく反映しています。どういうことかというと、全体の平均値と群ごとの平均値の差は0.6であり、それを二乗すると0.36です。以前の回では、これが過大推定された分散と説明していました。nで割る前の値に戻すと、0.36\times20=7.2です。群ごとの平均値を使うことによって小さくなった分の平方和(ここでは7.2)は、平均値の差の2乗を正しく反映しています。ここ、重要でしたので追記します。)
逆方向から言うと、群ごとの平均値を使わずに、群ごとの平均値を違いを無視して、全体の平均値を使ってしまった時に、大きく計算され過ぎていた平方和です。
最後に考えるのは、残された「7.2」という平方和をどう扱うか、ということです。ここにも、自由度が登場するのですが、その話は次回に。