趣味の統計

心理統計のはなし(偏差への偏愛ともいう)。Web上に散らばっている「アンケート」へのつっこみ。その他。

シグマくんのはなし #22

2種類の分散

自由度について話すために、まず分散には2種類ある、という話をしたいと思います。すでに学習された方はご存知でしょう。偏差の2乗の総和(=偏差平方和)を、(1) nで割った分散、(2) (n-1)で割った分散です。Excelの関数では、前者が var.p 関数、後者が var.s 関数ですね。なぜ割る数が違うかというと、使う目的が違うからです。誤解を恐れずざっくり書くと、

  • (1) の分散は、記述統計のために使う。標本データの散布度をあらわす統計量の一つ。
  • (2) の分散は、推測統計のために使う。標本データの散布度をあらわす統計量の一つでもあるし、母集団の分散(母分散)の推定量でもある。

違うのは、母集団の分散の推定、つまり、母集団の分散はこれくらいかなあ、という具体的な予測値として使うかどうか、ということです。では、この2種類の分散は、具体的にどのくらい違うのでしょうか。また、なぜ (1) の分散は推測統計のためには使わないのでしょうか。

(n-1)で割ったほうが少しだけ大きい

当然ですが、偏差平方和を(1) nで割るよりも、(2) (n-1)で割ったほうが、少しだけ大きくなりますよね。偏差平方和が90で、標本サイズが10だったとすると、(1) 90 \div 10 = 9 ですが、(2)  90 \div (10-1) = 90 \div 9 = 10 です。
そして、もっと一般的に、どれくらい違うのかについて、すでに私たちは答えを得ています。母集団の分散を、母集団の平均値を使って計算することを考えましょう。以下、母集団の分散(母分散)を\sigma^2(「シグマ二乗」と読みます)、母集団の平均値(母平均)を \mu (「ミュー」と読みます)という記号で書いていきます。
母分散の計算式は、
 \displaystyle \sigma^2 = \frac1n\sum_{i=1}^n (x_i - \mu)^2
です。平均値が\bar xではなく、母平均\muになっているところが、これまでの式と違いますね。ところで、この母平均\muは、値がわかりません。標本の平均値 \bar xはそれに近い値ですが、完全に一致している保証はありません。が、具体的な値がないと計算できないので、 \muの近似値として、\bar xを使います。近似値ですから、数式上では \mu = \bar x + eと置き換えます。eの分だけ母平均からずれている、という意味ですね。もちろん、eの具体的な値がわかっているわけでもありません。だったら意味ないじゃん? とも思えますが、そうでもないんです。では、置き換えましょう。
 \displaystyle  \sigma^2 = \frac1n\sum_{i=1}^n \{x_i - (\bar x + e) \}^2
さて、どこかで見覚えのある式ですね。そうです。「シグマくんのはなし」の第15回から第17回にかけてお話した、「平均値を丸めるとどれくらい分散はずれるのか」で考えてきた式と同じです。結局この式は、次のように変形できるのでした。
 \displaystyle \sigma^2 = \frac1n\sum_{i=1}^n \{x_i - (\bar x + e) \}^2 = s^2 + e^2
s^2は標本データから計算した分散、e^2は前述の通り、標本平均と母平均の差eを2乗したものです。つまり、実際にどのくらいの大きさなのかはわからないけれども、母分散\sigma^2は、標本分散s^2よりも、「標本平均と母平均の差eを2乗した分だけ大きいはずだ」と推測できるのです。そして、偏差平方和を(n-1)で割ることで、その期待値が \sigma^2と一致することがわかっているのです。(この「期待値が」っていうのが、また別の意味で「分からないポイント」だったりします。でも、これに深入りすると出てこれなくなるので、書きません。ごめんなさい。)

使ってもらえないデータの立場

話を少し戻して、(1) nで割るか、(2) (n-1)で割るかについてもう少し考えましょう。標本データはn個あるのですから、nで割るのがごく自然な考え方です。それをあえて(n-1)で割るのはやはり不自然です。せっかくn個集まったデータの中の、ある1個のデータに対して、「あ、ごめん。君は今回、数に入れないから」って言っているようなものですね。「数に入れないから」って言われたデータの立場にもなってみましょう。可哀そうじゃないですか?
でも、あえて「数に入れない」って言っているのは、それなりに理由もあるのです。少々ややこしい話になるので、 x = (2,6,7)というn=3のデータで考えましょう。
平均を計算するときには、3つのデータが全部必要です。当然ですね。(2+6+7)\div3=5です。さて、問題は分散を計算するときです。
\displaystyle  s^2 = \{ (2-5^2)+(6-5^2)+(7-5^2) \} \div 3
あれ、3つとも必要ですよ?
と、思いきや、ちょっと待って…と言いだすのは、実は\bar xです。「ちょっと待って。3つのうち、どれでもいいんだけど、たとえば7。7はこの式になくても、計算できる」とか言うんです。はあ?と思いませんか。もう少し、丁寧に話を聞いてみましょう。

  • 平均値 \bar xは、(2+6+7)\div3=5で計算したよね。
  • これ、変形すると、たとえば、 7 = 5 \times 3 - (2+6)って書けるよね。
  • だから、さっきの式の「7」のところを、 5 \times 3 - (2+6)って置き換えても答えは同じだよね。

置き換えて見ると、
\displaystyle  s^2 = \{ (2-5^2)+(6-5^2)+( (5 \times 3 - (2+6))  -5^2) \} \div 3
うわあ、カッコが多すぎて見にくい! けれど、たしかに「7」がなくても分散を計算する式が書けてしまいます。

っていうことはさあ、僕たちって、データは確かに3つあるんだけど、「分散を計算するとき」に限っては、「実は2つ分のデータしかない」みたいに見えてるんじゃないの? (以上、 \bar xさんの談話でした)

表を書いて確かめよう

くどいようですが、表を書いて確かめましょう。

3つのデータのうち、どれを隠しても、平均値の情報があれば、隠された値は計算できてしまいます。というわけで、分散の計算に関しては、

すでに「平均値」という情報があるのだから、もとのデータは、(n-1)個あれば十分。どの値を計算に使ってもかまわないけど、任意に(n-1)個を選べば十分。

となります。この (n-1)のことを「自由度」といっています。「この個数までは、計算に使う値を自由に選んできていいよ。どれを選んでもいいよ。重要なのはその個数だよ。」ということです。
それが本当に e^2ぶんになるのかどうか、数式で確かめないと納得しない!という方は、「心理学統計法 '21」(放送大学教育振興会)の第9章などを参考に、ご自分でぜひ追求してみてください。難易度がかなり高くなるので、ここでは扱いません。(というか、書ける自信がない。)