趣味の統計

心理統計のはなし(偏差への偏愛ともいう)。Web上に散らばっている「アンケート」へのつっこみ。その他。

シグマくんのはなし #24

平均値を選択する

以前から使用している設定を再掲します。

これを用いて、前回は、全平方和(を自由度で割った全分散)と、群内平方和(を自由度で割った郡内分散)について話しました。そこで、全平方和を割ったときの自由度が19であったのに対し、群内平方和を割ったときの自由度が18で、1だけ違っていることについて「ここは気にしてください」と書きました。今回はこれを解き明かしていきたいと思います。

なぜ2つの群に分けようとするか

以前に書いたことの繰り返しになるのですが、20人に対して調査をしたのなら、20人分をまとめて、平均を出したり分散を出したりすればよいのです。それを2つに分けるということは、「標本を2つに分けることで、何か意味のある情報が得られる」と考えるからですね。
もしも、2つに分けても、それぞれの平均値が全く同じ(あるいは無視できるくらいの小さな差しかない)のであれば、あえて標本を2つに分ける意味なんかありません。今回の標本は、2つに分けると、平均値にそれなりの違い(7.9に対して6.7)がありましたから、「やっぱ、意味あるんじゃね?」となります。本当に統計的に見て意味があるのかを考えようとするのが統計的分析であり、一つの判断基準を示すのが統計的検定でした。

2つの群に分けることは平均値を選ぶこと

ところで、2つの群にただ分けただけでは何も起こりません。2つの群に分けて、「こっちの群は、こっちの群だけで計算した平均値を使おう」と判断することが、2つの群に分けることの本質です。どうして、群ごとの「平均値」を選ぶかというと、平均値を使うことで、偏差平方和がもっとも小さくなるからです(「平均値」の性質として以前にまとめましたね)。
2つの群に分けた上に、分ける前に使っていた平均値(それは全体の=ここでは20人の平均値でした)を使ってしまうと、偏差平方和を(つまり分散を)過大推定してしまいます(どうして「過大」推定なのかも、すでに話しましたね)。かといって、自由に(ほんとうに自由に)平均値の代わりになる値を選んでしまうこともできません。偏差平方和を過大推定することになりますし、どうしてその値を平均値の代わりに選ぶのかの理由付けが必要です。
というわけで、結局、群ごとの偏差平方和を計算するのに、群ごとの平均値を用いるのがもっとも合理的だということになります。

「群ごとの平均値」は1つ選べば十分

ところで、「群ごとの平均値」は、(ここでは2つの群で考えていますから)どちらか片方の平均値を選ぶと、もう片方の平均値は自動的に決まります。何を言っているか分かりますか?
全体の(20人分の)平均値はすでに計算されています。標本を2つに分けて、「A群はA群の平均値を使って、偏差平方和を計算しよう」と決めたときに、もう一方のB群は、B群の平均値を選ばざるを得なくなります。全体の平均値がすでに決まっている以上、一方を選んだら、もう一方は自動的に決まります。ここでは2つの群で考えていますが、群が3つの場合には、2つの群について平均値を選べば、残りの1つの群の平均値は自動的に決まります。
すなわち、「群ごとの平均値を使おう」と決めた時、すべての群について平均値を選べるのではなく、順に平均値を選んでいったとき、最後の群の平均値は自動的に決まってしまいます。「平均値を選ぶ」ということの自由度は、「群の数ー1」である、ということです。

「群間平方和」

「群ごとの平均値を使う」ことによって、平方和が7.2小さくなったことは、前回にお話ししました。そして、上で話してきたように、この平方和の自由度は、群の数-1、つまり「1」です。したがって、7.2\div1=7.2が、分散(母分散の推定値)の値です。各群の平均値の差が大きいほど、この平方和は大きくなりますから、各群の平均値間の散らばり(あるいは密集度)を表しているという意味で「群間平方和(群間分散)」とよんでいます。

役者がそろった

さて、以上で、分散分析の役者がそろいました。表に整理します。これを「分散分析表」といいます。Rなどの分析ツールで分析すると、これと同じ形式の表が出力されます。Excelでも同様です。ただし、使われている用語が異なっていますから、どれか一つ(お使いの教科書の用語で理解するのが良いと思います)に読み替えて理解しましょう。幸い、用語が違っても、書いてある場所が同じなら同じ意味をもった数値です。

   平方和 自由度 分散(平均平方)
群間 7.2 1 7.2
群内 49.0 18 2.722
全  56.2 19 2.958

そして、この表から、2つの数値が計算されます。(まだ続くんかい…)

  1. 分散比(F値):「郡間の分散」÷「郡内の分散」です。7.2÷2.722=2.645が、この分析における分散比(F値)です。この値は、F分布表と見比べることで、「統計的に意味のある差」かどうか、すなわち、母集団においても平均値に差があるといえるのかどうかを判断する、1つの目安になります。F分布表の見方は、お使いの教科書を参照して下さい。Rなどの統計ツールを使うと、判断の目安になるp値という値に自動的に変換してくれますから、統計ツールが使える環境なら、そのほうが便利でしょう。
  2. 分散説明率(決定係数):「群間の平方和」÷「全平方和」7.2÷56.2=0.128が、この分析における分散説明率(決定係数)です。百分率に読み替えて、12.8%という書き方をすることも多いです。「全体の平均」ではなく、「群ごとの平均値」を使うことによって、分散を12.8%小さくできた、ということですね。これを、「分散の12.8%を説明することができた」というふうに表記している教科書も多いと思います。分散というのは、個人差など、いろいろな理由でデータに生じるバラツキや密集度の指標でした。そのうち、12.8%は、「2つの群を別々に考えないといけないのに、いっしょに考えてしまったから生じてしまったんだね」というふうに「説明」できた、と考えるのです。じゃあ、残りの81.2%は何なんだ? ということになりますが、個人差とか、そのほかいろいろな理由でバラついたり密集したりしているのでしょう。このデータからは、そのほかのことはわかりませんね。だって、「学習センターAとB」という違い以外に、個人の特徴を表すデータが含まれていませんからね。

とりあえず分散分析を終わろう

というわけで、とりあえず分散分析の話を終わります。
書き飛ばしたところ、書き忘れ、間違い、勘違い、あれこれ出てきそうです。お気づきのことがありましたら、ツッコミをいれていただくと喜びます。(お手柔らかに・・・)