シグマくんのはなし #22

2種類の分散

自由度について話すために、まず分散には2種類ある、という話をしたいと思います。すでに学習された方はご存知でしょう。偏差の2乗の総和（＝偏差平方和）を、(1) $n$ で割った分散、(2) $(n-1)$ で割った分散です。Excelの関数では、前者が var.p 関数、後者が var.s 関数ですね。なぜ割る数が違うかというと、使う目的が違うからです。誤解を恐れずざっくり書くと、

(1) の分散は、記述統計のために使う。標本データの散布度をあらわす統計量の一つ。
(2) の分散は、推測統計のために使う。標本データの散布度をあらわす統計量の一つでもあるし、母集団の分散（母分散）の推定量でもある。

違うのは、母集団の分散の推定、つまり、母集団の分散はこれくらいかなあ、という具体的な予測値として使うかどうか、ということです。では、この2種類の分散は、具体的にどのくらい違うのでしょうか。また、なぜ (1) の分散は推測統計のためには使わないのでしょうか。

$(n-1)$ で割ったほうが少しだけ大きい

当然ですが、偏差平方和を(1) $n$ で割るよりも、(2) $(n-1)$ で割ったほうが、少しだけ大きくなりますよね。偏差平方和が90で、標本サイズが10だったとすると、(1) $90 \div 10 = 9$ ですが、(2) $90 \div (10-1) = 90 \div 9 = 10$ です。
そして、もっと一般的に、どれくらい違うのかについて、すでに私たちは答えを得ています。母集団の分散を、母集団の平均値を使って計算することを考えましょう。以下、母集団の分散（母分散）を $\sigma^2$ （「シグマ二乗」と読みます）、母集団の平均値（母平均）を $\mu$ （「ミュー」と読みます）という記号で書いていきます。
母分散の計算式は、
$\displaystyle \sigma^2 = \frac1n\sum_{i=1}^n (x_i - \mu)^2$
です。平均値が $\bar x$ ではなく、母平均 $\mu$ になっているところが、これまでの式と違いますね。ところで、この母平均 $\mu$ は、値がわかりません。標本の平均値 $\bar x$ はそれに近い値ですが、完全に一致している保証はありません。が、具体的な値がないと計算できないので、 $\mu$ の近似値として、 $\bar x$ を使います。近似値ですから、数式上では $\mu = \bar x + e$ と置き換えます。 $e$ の分だけ母平均からずれている、という意味ですね。もちろん、 $e$ の具体的な値がわかっているわけでもありません。だったら意味ないじゃん？　とも思えますが、そうでもないんです。では、置き換えましょう。
$\displaystyle \sigma^2 = \frac1n\sum_{i=1}^n \{x_i - (\bar x + e) \}^2$
さて、どこかで見覚えのある式ですね。そうです。「シグマくんのはなし」の第15回から第17回にかけてお話した、「平均値を丸めるとどれくらい分散はずれるのか」で考えてきた式と同じです。結局この式は、次のように変形できるのでした。
$\displaystyle \sigma^2 = \frac1n\sum_{i=1}^n \{x_i - (\bar x + e) \}^2 = s^2 + e^2$
$s^2$ は標本データから計算した分散、 $e^2$ は前述の通り、標本平均と母平均の差 $e$ を2乗したものです。つまり、実際にどのくらいの大きさなのかはわからないけれども、母分散 $\sigma^2$ は、標本分散 $s^2$ よりも、「標本平均と母平均の差 $e$ を2乗した分だけ大きいはずだ」と推測できるのです。そして、偏差平方和を $(n-1)$ で割ることで、その期待値が $\sigma^2$ と一致することがわかっているのです。（この「期待値が」っていうのが、また別の意味で「分からないポイント」だったりします。でも、これに深入りすると出てこれなくなるので、書きません。ごめんなさい。）

使ってもらえないデータの立場

話を少し戻して、(1) $n$ で割るか、(2) $(n-1)$ で割るかについてもう少し考えましょう。標本データは $n$ 個あるのですから、 $n$ で割るのがごく自然な考え方です。それをあえて $(n-1)$ で割るのはやはり不自然です。せっかく $n$ 個集まったデータの中の、ある1個のデータに対して、「あ、ごめん。君は今回、数に入れないから」って言っているようなものですね。「数に入れないから」って言われたデータの立場にもなってみましょう。可哀そうじゃないですか？
でも、あえて「数に入れない」って言っているのは、それなりに理由もあるのです。少々ややこしい話になるので、 $x = (2,6,7)$ という $n=3$ のデータで考えましょう。
平均を計算するときには、3つのデータが全部必要です。当然ですね。 $(2+6+7)\div3=5$ です。さて、問題は分散を計算するときです。
$\displaystyle s^2 = \{ (2-5^2)+(6-5^2)+(7-5^2) \} \div 3$
あれ、3つとも必要ですよ？
と、思いきや、ちょっと待って…と言いだすのは、実は $\bar x$ です。「ちょっと待って。3つのうち、どれでもいいんだけど、たとえば７。７はこの式になくても、計算できる」とか言うんです。はあ？と思いませんか。もう少し、丁寧に話を聞いてみましょう。

平均値 $\bar x$ は、 $(2+6+7)\div3=5$ で計算したよね。
これ、変形すると、たとえば、 $7 = 5 \times 3 - (2+6)$ って書けるよね。
だから、さっきの式の「７」のところを、 $5 \times 3 - (2+6)$ って置き換えても答えは同じだよね。

置き換えて見ると、
$\displaystyle s^2 = \{ (2-5^2)+(6-5^2)+( (5 \times 3 - (2+6)) -5^2) \} \div 3$
うわあ、カッコが多すぎて見にくい！　けれど、たしかに「７」がなくても分散を計算する式が書けてしまいます。

っていうことはさあ、僕たちって、データは確かに3つあるんだけど、「分散を計算するとき」に限っては、「実は2つ分のデータしかない」みたいに見えてるんじゃないの？　（以上、 $\bar x$ さんの談話でした）

表を書いて確かめよう

くどいようですが、表を書いて確かめましょう。

3つのデータのうち、どれを隠しても、平均値の情報があれば、隠された値は計算できてしまいます。というわけで、分散の計算に関しては、

すでに「平均値」という情報があるのだから、もとのデータは、 $(n-1)$ 個あれば十分。どの値を計算に使ってもかまわないけど、任意に $(n-1)$ 個を選べば十分。

となります。この $(n-1)$ のことを「自由度」といっています。「この個数までは、計算に使う値を自由に選んできていいよ。どれを選んでもいいよ。重要なのはその個数だよ。」ということです。
それが本当に $e^2$ ぶんになるのかどうか、数式で確かめないと納得しない！という方は、「心理学統計法 '21」（放送大学教育振興会）の第9章などを参考に、ご自分でぜひ追求してみてください。難易度がかなり高くなるので、ここでは扱いません。（というか、書ける自信がない。）