趣味の統計

心理統計のはなし(偏差への偏愛ともいう)。Web上に散らばっている「アンケート」へのつっこみ。その他。

シグマくんのはなし #24

平均値を選択する

以前から使用している設定を再掲します。

これを用いて、前回は、全平方和(を自由度で割った全分散)と、群内平方和(を自由度で割った郡内分散)について話しました。そこで、全平方和を割ったときの自由度が19であったのに対し、群内平方和を割ったときの自由度が18で、1だけ違っていることについて「ここは気にしてください」と書きました。今回はこれを解き明かしていきたいと思います。

なぜ2つの群に分けようとするか

以前に書いたことの繰り返しになるのですが、20人に対して調査をしたのなら、20人分をまとめて、平均を出したり分散を出したりすればよいのです。それを2つに分けるということは、「標本を2つに分けることで、何か意味のある情報が得られる」と考えるからですね。
もしも、2つに分けても、それぞれの平均値が全く同じ(あるいは無視できるくらいの小さな差しかない)のであれば、あえて標本を2つに分ける意味なんかありません。今回の標本は、2つに分けると、平均値にそれなりの違い(7.9に対して6.7)がありましたから、「やっぱ、意味あるんじゃね?」となります。本当に統計的に見て意味があるのかを考えようとするのが統計的分析であり、一つの判断基準を示すのが統計的検定でした。

2つの群に分けることは平均値を選ぶこと

ところで、2つの群にただ分けただけでは何も起こりません。2つの群に分けて、「こっちの群は、こっちの群だけで計算した平均値を使おう」と判断することが、2つの群に分けることの本質です。どうして、群ごとの「平均値」を選ぶかというと、平均値を使うことで、偏差平方和がもっとも小さくなるからです(「平均値」の性質として以前にまとめましたね)。
2つの群に分けた上に、分ける前に使っていた平均値(それは全体の=ここでは20人の平均値でした)を使ってしまうと、偏差平方和を(つまり分散を)過大推定してしまいます(どうして「過大」推定なのかも、すでに話しましたね)。かといって、自由に(ほんとうに自由に)平均値の代わりになる値を選んでしまうこともできません。偏差平方和を過大推定することになりますし、どうしてその値を平均値の代わりに選ぶのかの理由付けが必要です。
というわけで、結局、群ごとの偏差平方和を計算するのに、群ごとの平均値を用いるのがもっとも合理的だということになります。

「群ごとの平均値」は1つ選べば十分

ところで、「群ごとの平均値」は、(ここでは2つの群で考えていますから)どちらか片方の平均値を選ぶと、もう片方の平均値は自動的に決まります。何を言っているか分かりますか?
全体の(20人分の)平均値はすでに計算されています。標本を2つに分けて、「A群はA群の平均値を使って、偏差平方和を計算しよう」と決めたときに、もう一方のB群は、B群の平均値を選ばざるを得なくなります。全体の平均値がすでに決まっている以上、一方を選んだら、もう一方は自動的に決まります。ここでは2つの群で考えていますが、群が3つの場合には、2つの群について平均値を選べば、残りの1つの群の平均値は自動的に決まります。
すなわち、「群ごとの平均値を使おう」と決めた時、すべての群について平均値を選べるのではなく、順に平均値を選んでいったとき、最後の群の平均値は自動的に決まってしまいます。「平均値を選ぶ」ということの自由度は、「群の数ー1」である、ということです。

「群間平方和」

「群ごとの平均値を使う」ことによって、平方和が7.2小さくなったことは、前回にお話ししました。そして、上で話してきたように、この平方和の自由度は、群の数-1、つまり「1」です。したがって、7.2\div1=7.2が、分散(母分散の推定値)の値です。各群の平均値の差が大きいほど、この平方和は大きくなりますから、各群の平均値間の散らばり(あるいは密集度)を表しているという意味で「群間平方和(群間分散)」とよんでいます。

役者がそろった

さて、以上で、分散分析の役者がそろいました。表に整理します。これを「分散分析表」といいます。Rなどの分析ツールで分析すると、これと同じ形式の表が出力されます。Excelでも同様です。ただし、使われている用語が異なっていますから、どれか一つ(お使いの教科書の用語で理解するのが良いと思います)に読み替えて理解しましょう。幸い、用語が違っても、書いてある場所が同じなら同じ意味をもった数値です。

   平方和 自由度 分散(平均平方)
群間 7.2 1 7.2
群内 49.0 18 2.722
全  56.2 19 2.958

そして、この表から、2つの数値が計算されます。(まだ続くんかい…)

  1. 分散比(F値):「郡間の分散」÷「郡内の分散」です。7.2÷2.722=2.645が、この分析における分散比(F値)です。この値は、F分布表と見比べることで、「統計的に意味のある差」かどうか、すなわち、母集団においても平均値に差があるといえるのかどうかを判断する、1つの目安になります。F分布表の見方は、お使いの教科書を参照して下さい。Rなどの統計ツールを使うと、判断の目安になるp値という値に自動的に変換してくれますから、統計ツールが使える環境なら、そのほうが便利でしょう。
  2. 分散説明率(決定係数):「群間の平方和」÷「全平方和」7.2÷56.2=0.128が、この分析における分散説明率(決定係数)です。百分率に読み替えて、12.8%という書き方をすることも多いです。「全体の平均」ではなく、「群ごとの平均値」を使うことによって、分散を12.8%小さくできた、ということですね。これを、「分散の12.8%を説明することができた」というふうに表記している教科書も多いと思います。分散というのは、個人差など、いろいろな理由でデータに生じるバラツキや密集度の指標でした。そのうち、12.8%は、「2つの群を別々に考えないといけないのに、いっしょに考えてしまったから生じてしまったんだね」というふうに「説明」できた、と考えるのです。じゃあ、残りの81.2%は何なんだ? ということになりますが、個人差とか、そのほかいろいろな理由でバラついたり密集したりしているのでしょう。このデータからは、そのほかのことはわかりませんね。だって、「学習センターAとB」という違い以外に、個人の特徴を表すデータが含まれていませんからね。

とりあえず分散分析を終わろう

というわけで、とりあえず分散分析の話を終わります。
書き飛ばしたところ、書き忘れ、間違い、勘違い、あれこれ出てきそうです。お気づきのことがありましたら、ツッコミをいれていただくと喜びます。(お手柔らかに・・・)

シグマくんのはなし #23

設定の再確認

自由度の話をしたので、分散分析の話に戻りましょう。#19と#20で出した設定をもう一度復習します。そして、母集団と自由度も、確かめていきましょう。

母集団

この調査では、放送大学の2つの学習センターAとBで、面接授業に参加していた学生それぞれ10人に回答してもらったのでした。標本はこの20人として、母集団は何になるのでしょう。いろいろ考えられるのですが、細かい議論はここではしません。ざっくりと、「放送大学の学生」としておきます。そして、面接授業AとBとで研究分野が大きく異なるので、研究分野への興味関心によって、受講単位数が変わるか、という(無理やりな)設定ということにしておきます!(汗)
無理やりな設定だと自覚しております。いずれまとめるときには設定し直しま~す。

自由度

自由度はどうでしょう。
まず、20人全員の受講単位数の分散を考える時には、自由度は 20-1=19 です。しかし、学生をAとBの2つの群に分けてそれぞれの分散を計算するときには、どちらも n=10 ですから、自由度はそれぞれ 10-1=9 になりますね。#20では、どちらも、偏差平方和を10で割り算していますから、計算し直す必要があります。
それと、学生を2つの群に分けたことで、自由度が1つ減っているのに気づきましたか? 20人全員で分散を計算するときには19、2つの群に分けると、それぞれ9なので、合わせると18。数が合わないような気がしませんか?
そんなの気にしない、という方もおられるでしょうが、ここは気にしてください。分散分析のもっとも重要なポイントといってもいいかもしれないのです。

分散を計算し直そう

では、自由度で割る、という方法で、分散を計算し直していきましょう。まず、20人全員をひとまとまりに考えたときの分散(母分散の推定値)です。

ここからは、A群とB群をまとめて計算していきます。別々に計算する場面も出てくるのですが、もともと「ひとまとまりのデータ」ですから、まとめて計算するべきなのですね。
平均値が7.3(これは20人分の平均値です)と仮定したときの、偏差2乗を求めて、それを合計して、自由度で割ります。これが分散です。次に計算する分散と区別するために、データ全体を使って求めた分散という意味で、「全分散」と表現します。統計学の教科書では、自由度で割る前の値のほうを、「全平方和」と表現していて、ここで求めた「全分散」は、単に「不偏分散」(母集団の分散の推定値)と書いていることの方が多いと思います。

群ごとに計算した平均値を使うと

次に、A群、B群に分けて計算した平均値を使って、分散を計算しましょう。平均値が異なるので分けて計算していますが、2つをまとめて母分散の推定値であると解釈します。
(注:ここが非常にわかりにくくなってしまっています。帰無仮説について解説しないと、2つの群をまとめることの意味が説明できないと思います。帰無仮説について、平均値を丸めると…の後くらいに追加しないといけませんね。で、平均値をずらすことによる分散の過大推定分について、帰無仮説と対立仮説の文脈で語ると、ようやくここに話がつながりそうな気がします。著者覚え書き。)

それぞれ、自分の群の平均値を使って求めたを偏差を2乗して、合計して、自由度で割ります。上で求めた「全分散」と比較するために、両方の群をまとめて計算しています。どうして別々に計算しないの? と思われるかもしれませんが、先に書いたように、これは「ひとまとまりのデータ」だからです。
(注)このことについて、最初から「ひとまとまりのデータ」であることを示して、合計して計算して提示する方が混乱が少なった。分散分析のはじめの部分を書き直す必要がある。以上、著者覚え書き。
この分散は、群ごとの平均値、つまり、「これが自分たちの群の平均値なのだ」と、それぞれの群のデータたちが主張する平均値を使ってもなお、データの特徴として得られる「データのバラつき具合」の指標です。難しい言い方をしていますが、要するに、「A群とかB群とか、そういう違い以外のいろいろな理由で、どうしても生まれてきてしまう個人差」を、なんとか数値化したもの、と考えておきましょう。
この「分散の意味」についても、もっと早い段階で出しておくべき。著者覚え書き。
群に分けても、なお群のなかに残ってしまう分散、という意味で、以下、「郡内分散」と表現します。統計学の教科書では、自由度で割る前の値のほうを、「群内平方和」と表現していて、自由度で割った値(「郡内分散」)は、「群内平均平方」という言い方をしていることが多いと思います。「平均平方」の「平均」を「自由度で割った」という意味と考えれば、結局同じことを言っているのです。

その差はどこから

さて、前にも述べたように、「全分散」では、データ全体を使って計算した平均値を使っていますから、その平均値と、群ごとの平均値の差の2乗だけ、分散が大きくなってしまうのでした。自由度で割ることによって、以前に述べたような単純な関係ではなくなっていますが、理屈としては同様のことが起こっています。
具体的にどのくらい差があるのかについて、「全分散」と「郡内分散」の差を求めたくなりますが、自由度が異なっているものを単純比較するのは変です。そこで、割り算する前の、「全平方和」と「群内平方和」の差を考えましょう。
「全平方和」(56.2)から「群内平方和」(49.0)を引くと、7.2になります。
これが、全体の平均値ではなく、群ごとの平均値を使うことによって、小さくなった平方和です。
(追記:この「7.2」という数は、自由度で割る前なので、平均値の差を正しく反映しています。どういうことかというと、全体の平均値と群ごとの平均値の差は0.6であり、それを二乗すると0.36です。以前の回では、これが過大推定された分散と説明していました。nで割る前の値に戻すと、0.36\times20=7.2です。群ごとの平均値を使うことによって小さくなった分の平方和(ここでは7.2)は、平均値の差の2乗を正しく反映しています。ここ、重要でしたので追記します。)
逆方向から言うと、群ごとの平均値を使わずに、群ごとの平均値を違いを無視して、全体の平均値を使ってしまった時に、大きく計算され過ぎていた平方和です。
最後に考えるのは、残された「7.2」という平方和をどう扱うか、ということです。ここにも、自由度が登場するのですが、その話は次回に。

シグマくんのはなし #22

2種類の分散

自由度について話すために、まず分散には2種類ある、という話をしたいと思います。すでに学習された方はご存知でしょう。偏差の2乗の総和(=偏差平方和)を、(1) nで割った分散、(2) (n-1)で割った分散です。Excelの関数では、前者が var.p 関数、後者が var.s 関数ですね。なぜ割る数が違うかというと、使う目的が違うからです。誤解を恐れずざっくり書くと、

  • (1) の分散は、記述統計のために使う。標本データの散布度をあらわす統計量の一つ。
  • (2) の分散は、推測統計のために使う。標本データの散布度をあらわす統計量の一つでもあるし、母集団の分散(母分散)の推定量でもある。

違うのは、母集団の分散の推定、つまり、母集団の分散はこれくらいかなあ、という具体的な予測値として使うかどうか、ということです。では、この2種類の分散は、具体的にどのくらい違うのでしょうか。また、なぜ (1) の分散は推測統計のためには使わないのでしょうか。

(n-1)で割ったほうが少しだけ大きい

当然ですが、偏差平方和を(1) nで割るよりも、(2) (n-1)で割ったほうが、少しだけ大きくなりますよね。偏差平方和が90で、標本サイズが10だったとすると、(1) 90 \div 10 = 9 ですが、(2)  90 \div (10-1) = 90 \div 9 = 10 です。
そして、もっと一般的に、どれくらい違うのかについて、すでに私たちは答えを得ています。母集団の分散を、母集団の平均値を使って計算することを考えましょう。以下、母集団の分散(母分散)を\sigma^2(「シグマ二乗」と読みます)、母集団の平均値(母平均)を \mu (「ミュー」と読みます)という記号で書いていきます。
母分散の計算式は、
 \displaystyle \sigma^2 = \frac1n\sum_{i=1}^n (x_i - \mu)^2
です。平均値が\bar xではなく、母平均\muになっているところが、これまでの式と違いますね。ところで、この母平均\muは、値がわかりません。標本の平均値 \bar xはそれに近い値ですが、完全に一致している保証はありません。が、具体的な値がないと計算できないので、 \muの近似値として、\bar xを使います。近似値ですから、数式上では \mu = \bar x + eと置き換えます。eの分だけ母平均からずれている、という意味ですね。もちろん、eの具体的な値がわかっているわけでもありません。だったら意味ないじゃん? とも思えますが、そうでもないんです。では、置き換えましょう。
 \displaystyle  \sigma^2 = \frac1n\sum_{i=1}^n \{x_i - (\bar x + e) \}^2
さて、どこかで見覚えのある式ですね。そうです。「シグマくんのはなし」の第15回から第17回にかけてお話した、「平均値を丸めるとどれくらい分散はずれるのか」で考えてきた式と同じです。結局この式は、次のように変形できるのでした。
 \displaystyle \sigma^2 = \frac1n\sum_{i=1}^n \{x_i - (\bar x + e) \}^2 = s^2 + e^2
s^2は標本データから計算した分散、e^2は前述の通り、標本平均と母平均の差eを2乗したものです。つまり、実際にどのくらいの大きさなのかはわからないけれども、母分散\sigma^2は、標本分散s^2よりも、「標本平均と母平均の差eを2乗した分だけ大きいはずだ」と推測できるのです。そして、偏差平方和を(n-1)で割ることで、その期待値が \sigma^2と一致することがわかっているのです。(この「期待値が」っていうのが、また別の意味で「分からないポイント」だったりします。でも、これに深入りすると出てこれなくなるので、書きません。ごめんなさい。)

使ってもらえないデータの立場

話を少し戻して、(1) nで割るか、(2) (n-1)で割るかについてもう少し考えましょう。標本データはn個あるのですから、nで割るのがごく自然な考え方です。それをあえて(n-1)で割るのはやはり不自然です。せっかくn個集まったデータの中の、ある1個のデータに対して、「あ、ごめん。君は今回、数に入れないから」って言っているようなものですね。「数に入れないから」って言われたデータの立場にもなってみましょう。可哀そうじゃないですか?
でも、あえて「数に入れない」って言っているのは、それなりに理由もあるのです。少々ややこしい話になるので、 x = (2,6,7)というn=3のデータで考えましょう。
平均を計算するときには、3つのデータが全部必要です。当然ですね。(2+6+7)\div3=5です。さて、問題は分散を計算するときです。
\displaystyle  s^2 = \{ (2-5^2)+(6-5^2)+(7-5^2) \} \div 3
あれ、3つとも必要ですよ?
と、思いきや、ちょっと待って…と言いだすのは、実は\bar xです。「ちょっと待って。3つのうち、どれでもいいんだけど、たとえば7。7はこの式になくても、計算できる」とか言うんです。はあ?と思いませんか。もう少し、丁寧に話を聞いてみましょう。

  • 平均値 \bar xは、(2+6+7)\div3=5で計算したよね。
  • これ、変形すると、たとえば、 7 = 5 \times 3 - (2+6)って書けるよね。
  • だから、さっきの式の「7」のところを、 5 \times 3 - (2+6)って置き換えても答えは同じだよね。

置き換えて見ると、
\displaystyle  s^2 = \{ (2-5^2)+(6-5^2)+( (5 \times 3 - (2+6))  -5^2) \} \div 3
うわあ、カッコが多すぎて見にくい! けれど、たしかに「7」がなくても分散を計算する式が書けてしまいます。

っていうことはさあ、僕たちって、データは確かに3つあるんだけど、「分散を計算するとき」に限っては、「実は2つ分のデータしかない」みたいに見えてるんじゃないの? (以上、 \bar xさんの談話でした)

表を書いて確かめよう

くどいようですが、表を書いて確かめましょう。

3つのデータのうち、どれを隠しても、平均値の情報があれば、隠された値は計算できてしまいます。というわけで、分散の計算に関しては、

すでに「平均値」という情報があるのだから、もとのデータは、(n-1)個あれば十分。どの値を計算に使ってもかまわないけど、任意に(n-1)個を選べば十分。

となります。この (n-1)のことを「自由度」といっています。「この個数までは、計算に使う値を自由に選んできていいよ。どれを選んでもいいよ。重要なのはその個数だよ。」ということです。
それが本当に e^2ぶんになるのかどうか、数式で確かめないと納得しない!という方は、「心理学統計法 '21」(放送大学教育振興会)の第9章などを参考に、ご自分でぜひ追求してみてください。難易度がかなり高くなるので、ここでは扱いません。(というか、書ける自信がない。)

シグマくんのはなし #21

自由度について書く前に

分散分析の話をちょっとだけ横に置いといて、自由度について書いてみます。この話、もっと早く出しておいた方がよかったと思います。それから、「分散」すなわち「偏差平方和の平均」という統計量をずっと扱っているのですが、nで割り算する前の値、すなわち「偏差平方和」のまま話を進めたほうが混乱しないのかな、とちょっと思っています。これは正直、むずかしい。という話は、著者の独り言として。

自由度=自由に値を決められる数

自由度のもともとの意味はけっこう説明がやっかいです。カイ二乗分布の話をしなくてはいけません。ですが、このブログでそこまで話を広げたくありません。(書ける自信がまったくない)なので、自由度=自由に値を決められる数、という、本質的なのか本質的でないのかよくわからない説明をそのまま流用します。
では、自由度とは、と書き進めていきたいのですが、話を進めるために、架空の設定を用いて、「記述統計」と「推測統計」について復習します。「母集団」「標本」についても復習します。まだこれらのことについて学んでいないという方は、別の入門書もあわせてお読みください。このブログでは、きわめてざっくりとしか説明いたしません。

記述統計と推測統計

記述統計と推測統計について話すために、ある架空の設定を用います。

架空の設定

次のような調査を行ったと考えてください。

ある私立大学の学生Aさんは、春先になると花粉症に悩まされるため、目薬を持ち歩いている。花粉症の人は多いと聞くが、この大学の学生で、花粉症の人はどれくらいいるのかと疑問に思い、アンケート調査を行った。学生20人から回答を得たところ、20人中14人が、自分が花粉症であると答えてくれた。このほかに、普段目薬をどれくらい使っているか、目薬を使うと目の症状(疲れ、かゆみなど)がどれくらい改善するかも尋ねている。
Aさんの通う私立大学は6000人の学生がいるが、Aさんの調査から、この大学に花粉症の学生はどれくらいいると予測できるだろうか。

(※調査方法、質問項目など、仮想データとはいえ、ツッコミどころの多い調査だと思われます。ツッコミの練習にお使いください。)

母集団と標本

この調査で言うと、母集団と標本は、

  • 母集団 :Aさんの通うある私立大学の学生6000人
  • 標本:Aさんの調査に回答した学生20人

です。「この大学に花粉症の学生はどれくらいいると予測できるだろうか」と分かりやすい書き方をしてみました。20人の標本から得られたデータを用いて、母集団6000人ではどうなのかを予測する、推測統計をしようとしています。

記述統計と推測統計

記述統計の結果が、設定の中に1つだけ記されています。「20人中14人が、自分が花粉症であると答えてくれた」がそれです。花粉症である学生の比率は、 14 \div 20 = 0.7 = 70 \%です。「標本」から得られた、花粉症である学生の「比率」という意味で、「標本比率」という言い方をします。
ここで、「花粉症の学生の比率は70%でした。以上!」までが記述統計です。標本の(ここでは20人分の)データだけを見て、それ以上広い世界の話をしないのが記述統計です。
でも、調査した学生は、標本である20人のことが知りたいのではなく、大学全体では何%かを知りたかったのですね。そこで、「標本比率」の70%という値をもとにして、「標本から得られたデータによると、花粉症の学生の比率は70%であった。よって、大学全体でも、約70%の学生が花粉症であると推測できる」などのように考えます。これが「推測統計」です。ここでは「母集団」の、花粉症である学生の「比率」、すなわち「母比率」を予測していることになりますね。
でも、ちょっとモヤっとしませんか? 「標本比率が70%だったからといって、母比率も約70%と言っているだけでしょ? 安易すぎないか?」って、思いません?
Aさんは、「一日にだいたい何回くらい目薬をさすか」も尋ねていて、「平均は2.65回」だったそうです。「標本」のデータから計算された「平均」なので、「標本平均」ですね。これをもとに、「この大学の学生は、一日平均2~3回、目薬をさしていると推測できる」などと考えるかもしれませんね。つまり、「母平均」は「2~3回」と推測したわけです。
どうでしょう? 同じようなモヤモヤがありますよね。「標本平均が2.65回だったことはいいとして、母平均が2~3って、アバウトすぎんか?」って、思いません?
標本比率とか、標本平均とか、標本のデータをもとに計算する値のことを「標本統計量」といいます。これに対して、「母比率」とか「母平均」とかは「母数」といいますね。
というわけで、この「標本統計量」について大事なことをいくつか確認しましょう。

標本統計量は母数と一致しない

大前提として、標本統計量は、母数と一致しません。(もちろん、たまたま、偶然、何の因果か、宝くじで6億円当たるくらいなものすごい奇跡の結果、一致することはあり得ます。)だって、しょせん、母集団のごく一部のデータしか見ていないのですから、ぴったり一致するはずがないでしょう。

予測する材料がこれしかないのだ

花粉症の学生の比率で考えると、標本比率は70%でしたが、母比率はぴったり70%ではありません。
ではなぜ、「母比率は70%」という予測をするかというと、予測に使える材料が、標本比率のほかにはないからです。Aさんのほかにも、同じ調査をしている人がいれば、その結果も考え合わせて予測することが可能かもしれません。が、現状、Aさんが集めた20人分のデータしかないので、これを使うしかありません。
また、「標本比率」は、標本サイズが大きくなるほど(つまりたくさんの人に調査に回答してもらうほど)、「母比率」に近い値になることがわかっています。今回は、標本サイズが20で、かなり少ないので、残念ながら母比率とのずれがやや大きいかもしれない、と考えられます。

幅を持たせると外れにくいのだ

目薬をさす回数で考えると、標本平均は2.65回でしたが、母平均は2.65回ではありません。ただし、「2~3回」という予測でしたので、母比率は「2~3」の間に入っているはずだ! くらいのことは、主張できるかもしれません。
「標本平均」も、標本サイズが大きくなるほど「母平均」に近い値になることがわかっています。やはり標本サイズが小さいのでずれが大きいかもしれない、と考えられます。そこで、ピンポイントで予測するのではなく、「こっからここまでの間にあるかな~」と幅をもたせて予測することがよく行われます。前者を点推定、後者を区間推定といいます。区間推定のためには、「標本平均」だけでなく、「標本サイズ」や「分散」も使います。
はい、やっと分散が出てきました。

では、次回以降、ここに書いた設定を用いて、自由度についてお話していきましょう。

シグマくんのはなし #20

設定の復習

2つの学習センターA、Bで、面接授業を受講していた学生10人ずつに、今学期の受講単位数をたずねたところ、次のようになりました。20人全体の平均は7.3でした。

では、前回の最後に示した手順に沿って、計算していきましょう。

平均が同じだったと仮定する

まず、2つの群を比較しても意味がない、要するに差が全くないという状況を仮定して、それぞれの群の分散を計算していきましょう。実際に計算すると、次のようになります。

赤字で注記したように、平均が等しいと仮定して、つまり、2つの群に分けても、平均は20人全体の平均とまったく同じだったと仮定して、偏差を計算しています。ですから、偏差の平均が0にはなりません。赤字の下のセルに書いてあるのが、偏差を平均したものです。
たとえばA群では、本来平均値は7.9ですが、それを7.3と仮定しているので、その差0.6が、偏差の平均値として計算されてきています。B群も同様に考えることができますね。
そして、偏差を2乗して平均した値が、枠線で囲んだセルの値です。

それぞれの群の平均を使って計算する

次に、それぞれの群の平均値を使って計算しましょう。2つの群の平均値には差があって、その差には「意味がある」んじゃないかな? と考えているのであれば、こちらのほうが正しい計算だと思えますよね。結果はこうなります。

青字で、それぞれの群の平均値を示してあります。その下の0は、偏差の平均が0になっていることを示しています。これも当然ですね。その下の枠で囲んであるセルに、偏差の2乗を平均した値、つまりそれぞれの群の分散が示されています。
では、「意味がない」と仮定した状況に比べて、どれくらい分散が小さくなっているかを見てみましょう。比較した値が、うすいオレンジ色の背景のセルに示してあります。A群B群ともに、 -0.36になっています。つまり、本来の平均値(それぞれの群の平均値)を使ったほうが、分散がそれぞれの群で -0.36小さくなっている。逆の見方をすれば、「意味がない」と仮定したほうの計算では、平均値が同じだという仮定をおいてしまったがために、分散がそれぞれの群で 0.36大きくなってしまっている。ということです。

 0.36はどこから?

では、この 0.36はどこから来たのでしょう。
シグマくんのはなし #17で、最終的に次の式を提示しました。
 \displaystyle v' = s^2 + e^2
この式のv'は、本来の平均値とはずれた値を平均値として使ってしまった時の分散、eはその「ずれの大きさ」を示しているのでした。今回の例では、平均値の「ずれの大きさ」は、0.6と-0.6で、この値は偏差の平均値として最初の表に出てきていました。これを2乗すると0.36です。最初に、平均値に差が無いと仮定したときには、分散を0.36だけ大きく計算してしまったのです。

ぼくらの平均値を返せ

しかし相変わらず、この「0.36」はどんな意味なのかは不明のままです。
たしかに、それぞれの群ごとの平均を使わずに、「平均値は同じだ、群ごとに分けて比べる意味なんかないんだ」という無理やりな仮定をおいたために、それぞれの群で0.36ずつ、分散が大きくなってしまっていた。だから、データの立場からすれば、「勝手に平均値が同じだという仮定を置いて、計算しないでよ。ちゃんと僕たちの、群ごとの平均値を使ってよ。ぼくらの平均値を返せ~!」とか思っているに違いないのです。
とはいえ、このデータにおいて、「0.36」が大きいのか小さいのか。つまり、「こんなに差があったんだぞ」と主張する意味があるほど大きなものなのかどうかは、この数字だけ見ていてもわかりません。この話をするためには、いったん分散や分散分析の話を離れて、自由度の話をしなくてはならないのです。
これまで、自由度については何も触れずに話をしてきました。分散の計算でも、常にnで割り算をしていて、「あれ、n-1で割るんじゃないの?」と思った方もおられるでしょう。次回はまず、その話から始めます。

シグマくんのはなし #19

ふたたび「意味がない」状況とは

では、「意味がない」という状況について、分散分析が使えそうなデータを使って考えていきましょう。
注:話が難しくなりすぎないように、2つの平均値を比較する、という状況で考えます。通常、2つの平均値の差を検討する場合には、分散分析ではなくt検定を用いますが、分散分析でも、検定結果じたいは同じになります。このことについては、どこかのタイミングで改めて書くかもしれません。
では、次の設定で考えていきます。

放送大学の学習センターA、Bで同日に開講された面接授業に参加していた学生、各10人(合計20人)に、今学期には何単位分の授業を受講しているかをたずねたところ、次のようになりました(仮想データです)。

単位数 4 5 6 7 8 9 10
学生数 1 2 4 4 3 4 2

20人の学生の単位数の合計は146、平均は7.3単位でした。
試しに、学習センターAとBとで比べてみようと思い、学生を受講したセンター別に(10人ずつに)分けてみました。このとき、
学習センターAとBで分けてみたけど、分けて比較する意味なかったねと思えるような状況とは、どんな状況でしょうか。逆に、学習センターAとBで分けてみて正解だったね、分けて比較する意味あったねと思えるような状況とは、どんな状況でしょうか。考えてみてください。

  • 「分ける意味なかった」状況とは・・・
  • 「分ける意味あった」状況とは・・・


《 回答案作成タイム 》

クロス表で考えたことを思い出そう

前回、クロス表をみながら、同じようなことを考えました。そのとき、「分ける意味がない」状況とは、分けたときと分けないときとで、「しょうゆ味」と「とんこつ味」を選んだ人の比が変わらない状況でした。
同様に考えれば、受講単位数も次のように考えられそうです。つまり、学習センターAで受講した学生(以下、学生A群と書きます)と学習センターBで受講した学生(学生B群と書きます)とで分けてみたけれど、どちらも受講単位数の平均は全く同じだった、という状況です。つまり、

  • 学生A群・・・受講単位数の平均 7.3単位
  • 学生B群・・・受講単位数の平均 7.3単位

なんだ、全く同じじゃないか、ということになれば、学習センターAとBとで分けて比較する意味はありませんね。では、「意味のある」状況はどんな状況でしょうか。
平均が同じでもなお、分けてみて意味がある状況というのは、実は存在します。が、ここではスルーします。いずれ機会があったら書きます。

「意味ありそう」な状況はひとつに決められない

クロス表のときに、「しょうゆ味」を選んだ人は全員地域A、みたいな極端な状況について考えました。たしかに地域で分ける意味はあるでしょうが、あまり現実的な状況ではありませんでしたね。
同じように、学生A群は平均13.6単位で、学生B群は平均1単位かもしれない!(これでも20人の平均は7.3単位になります)というのは、あまりにも非現実的ですよね。ということで、たとえばこんな状況はあり得そうです。

  1. 受講単位数平均:学生A群=7.8単位、学生B群=6.8単位(その差1単位)
  2. 受講単位数平均:学生A群=8.3単位、学生B群=6.3単位(その差2単位)
  3. 受講単位数平均:学生A群=8.8単位、学生B群=5.8単位(その差3単位)

まだまだいくらでも考えられますが、これくらいにしましょう。どれくらい差があれば、「学生をA群とB群に分けた意味ありそう」と考えられるでしょう。「その差2単位」なら意味ありでしょうか。もしそうだとして、「その差2.1単位」なら? 「その差2.2単位」なら? と考えはじめると、きりがないですね。

いったん「まったく意味がない」と仮定する

そこで、前回も書いたように、いったん「全く意味がない」と仮定します。B群とB群に分けて意味があるのであれば、全く意味がないと仮定した状況では、本来の状況と何かが異なってくるはずです。具体的には、次のように考えます。

  1. 学生をA群とB群に分ける意味は全くない、と仮定する。つまり、受講単位数の平均はどちらも同じである。このときの分散を計算する。
  2. 学生をA群とB群に分けて、それぞれの平均値を計算し、それぞれの群の分散を計算する。
  3. (2)で計算した分散は、(1)で計算した分散よりも小さいはずです。では、2つの群を合わせてどれくらい小さくなったのかを、パーセントで表してみる。

手順が少々複雑ですね。次回から、具体的な数値を使って、それぞれの計算が何を意味しているかを見ていきましょう。といっても、学生A群と学生B群の、それぞれのデータがないと計算できませんね。下に個人のデータ(もちろん仮想データ)示しておきますので、自分でとりあえず計算してみたい、という方は、やってみてください。

シグマくんのはなし #18

分散分析は何を分析したいのか

分散分析の解明に先立って、いったい分散分析というのは何を分析しているのかについて、復習しておきましょう。すでに統計学の教科書で勉強された方はご存知でしょうが、

分散分析は、平均値の差が、統計的に有意であるかどうかを検討している

のでした。
え? 分散分析なんだから、分散を分析しているんじゃないの? という素朴な疑問を抱いたことがある方も多いかもしれません。私もそうでした。分散分析は、確かに分散を分析しているんです(さっきと言っていることが違うじゃないか!と言いたくなるかもしれませんが、ちょっと待って)。分散を分析することで、平均値の差が統計的に有意であるかどうかを検討しているのです。
・・・やっぱりモヤっとしますよね。何それ? という感じは確かにあります。ここのモヤっと感を、なんとかすっきり書き表したい、と思っていますが、さて、うまくいくでしょうか。

「統計的に有意」とは

分散分析について話す前に、統計的に「有意」というのはいったいどういうことなのかについて、少し話しておきたいと思います。「有意」とは、「意味が有る」と書きます。が、これをそのまま説明することはとても難しいので、統計学では(現在よく用いられている推測統計学のやり方では、と言った方がいいでしょうか)、「意味がないとはいい難い」ことを「有意」であるととらえています。ははは、余計に分かりにくいでしょ。でも、もう少しだけ辛抱してくださいね。

「意味がない」とは

では最初に、統計的に「意味がない」(より具体的には、2つの数値を比較する意味がない、など)という状況について、考えていきましょう。これには、クロス表を用いるのが簡単だと私は思っています。クロス表の分析に分散分析を使うわけではないので、ちょっと回り道をしている感じがするかもしれませんが、こっちのほうが「意味がない」という状況について説明しやすいので、少しの間、つきあってください。
次のような状況を考えましょう。

全国から学生が集まる、ある国立大学の学生が、こんな調査をしました。学生100人をランダムに選び、好きなラーメンの味を調査したところ、次のようになりました。(仮想データですよ)
しょうゆ味:60人、とんこつ味:40人

ところで、「とんこつ味といえばさあ、あの地域だよね」と思い当たる方もおられるかもしれませんね。この調査をした学生もそう考えたのでしょう。好きなラーメンの味と一緒に、出身地も調査していました。では、

回答者100人を、出身地Aと出身地Bに分けたとき、表がどうなっていれば、「ああ、地域別にわけた意味があったね」といえるでしょうか。
また、表がどうなっていれば、「なんだ、地域別に分けた意味なんかないじゃないか」ということになるでしょうか。表の中に、適当に数字を入れてみてください。

ただし、地域Aの学生、地域Bの学生はいずれも50人であったとします。

しょうゆ味 とんこつ味
地域A 50
地域B 50
60 40 100


《 回答案作成 タイム 》

4つの回答案

では、具体的に表を作って考えましょう。まず次の2つの表から。

①の表
この表は、明らかに、地域別に分けた意味がありませんね。なぜかというと、どちらの地域も、しょうゆ味を選んだ人と、とんこつ味を選んだ人の比が3:2で、まったく同じだからです。全く同じなのですから、比較したって「同じ!以上!」としか言えません。わざわざ地域別に分ける意味なんかないですね。(もちろんですが、なぜどこの地域でもしょうゆ味を選ぶ人が少し多いのか? という別の疑問について考えることは意味があるかもしれません。)
②の表
この表は、地域別に分けてみて正解!と、おそらく誰もが感じる表でしょう。何しろ、地域Aの学生は全員「しょうゆ味」を選んでいるし、「とんこつ味」を選んだ学生はみんな地域Bだし、もう、完全に地域差あり! 地域別に分けてよかった! 意味あり! という表です。地域Aの学生はなぜとんこつ味を選ばないのか? 地域Bの学生はなぜしょうゆ味よりとんこつ味を選ぶのか? という疑問について考えるのは(それなりに)楽しそうです。

といっても、現実には、①のように完全に「意味がないね」と言える状況でもなく、②のように極端に人数が偏っている状況もない、もっと中途半端で、「どっちかな~?」と悩んでしまう状況の方が多いはずです。ということで、別の表を考えましょう。

③の表
これはどうでしょう。①の表ととてもよく似ていますね。「地域A」の「しょうゆ味」が30から31に1人増えただけなんですが、これだけでは、地域に分けた意味があるぞ! とは主張しにくいですよね。
④の表
では、これはどうでしょう。「地域A」の「しょうゆ味」が35人になりました。地域Bの、しょうゆ味ととんこつ味が同じ人数になっていて、しょうゆ味:とんこつ味=1:1になっています。地域Aでは、しょうゆ味:とんこつ味=2.3:1なので、地域によってそれなりに大きな差があるように見えます。「地域で分けた意味あるんじゃね?」と思えますが、「やっぱり誤差の範囲なんじゃね?」と言われると、そうかもなあと思ったりします。みなさんはどうですか?

はっきり決められるのは「意味がない」状態

以上のことから考えられるのは、誰が見たって完全に「意味がない」という状態は、明確に定まるということです。①の表がそれです。③の表のように、ちょっとだけ偏りがあると、「意味があるっていえないよね」と同意が得られそうですが、④の表くらい偏ってくると、意見が分かれるでしょう。つまり、これくらい偏っていれば意味があることにしよう」という基準は、そう簡単には決められないのです。
だから、「意味がない」状態を決める。そして、その状態から、う~んと離れているとき(表の数がう~んと偏っているとき)には、「意味がないとは言い難いよね」ということにしよう。現在用いられている推測統計では、こういう考え方をするのです。そして、「う~んと離れている」かどうかの判断基準を提供してくれる道具が、統計的検定(帰無仮説検定)と呼ばれている方法です。分散分析も、カイ二乗検定も、こうした検定の方法の一つです。

ずいぶん長い話になりましたが、これはクロス表でのお話です。クロス表の検定にはカイ二乗検定を使います。じゃあ、分散分析を使う場面ではどう考えればいいんだ? という話を、次回はしていきます。

参考

ラーメンの味の好みに多少の地域性があることは、たとえば以下の記事に書かれています。ただし、調査の信頼性について、このブログでは肯定的にも否定的にも評価していません。あくまで一つの参考資料として掲載します。
news.yahoo.co.jp