2種類の分散
自由度について話すために、まず分散には2種類ある、という話をしたいと思います。すでに学習された方はご存知でしょう。偏差の2乗の総和(=偏差平方和)を、(1) で割った分散、(2) で割った分散です。Excelの関数では、前者が var.p 関数、後者が var.s 関数ですね。なぜ割る数が違うかというと、使う目的が違うからです。誤解を恐れずざっくり書くと、
- (1) の分散は、記述統計のために使う。標本データの散布度をあらわす統計量の一つ。
- (2) の分散は、推測統計のために使う。標本データの散布度をあらわす統計量の一つでもあるし、母集団の分散(母分散)の推定量でもある。
違うのは、母集団の分散の推定、つまり、母集団の分散はこれくらいかなあ、という具体的な予測値として使うかどうか、ということです。では、この2種類の分散は、具体的にどのくらい違うのでしょうか。また、なぜ (1) の分散は推測統計のためには使わないのでしょうか。
で割ったほうが少しだけ大きい
当然ですが、偏差平方和を(1) で割るよりも、(2) で割ったほうが、少しだけ大きくなりますよね。偏差平方和が90で、標本サイズが10だったとすると、(1) ですが、(2) です。
そして、もっと一般的に、どれくらい違うのかについて、すでに私たちは答えを得ています。母集団の分散を、母集団の平均値を使って計算することを考えましょう。以下、母集団の分散(母分散)を(「シグマ二乗」と読みます)、母集団の平均値(母平均)を (「ミュー」と読みます)という記号で書いていきます。
母分散の計算式は、
です。平均値がではなく、母平均になっているところが、これまでの式と違いますね。ところで、この母平均は、値がわかりません。標本の平均値はそれに近い値ですが、完全に一致している保証はありません。が、具体的な値がないと計算できないので、の近似値として、を使います。近似値ですから、数式上ではと置き換えます。の分だけ母平均からずれている、という意味ですね。もちろん、の具体的な値がわかっているわけでもありません。だったら意味ないじゃん? とも思えますが、そうでもないんです。では、置き換えましょう。
さて、どこかで見覚えのある式ですね。そうです。「シグマくんのはなし」の第15回から第17回にかけてお話した、「平均値を丸めるとどれくらい分散はずれるのか」で考えてきた式と同じです。結局この式は、次のように変形できるのでした。
は標本データから計算した分散、は前述の通り、標本平均と母平均の差を2乗したものです。つまり、実際にどのくらいの大きさなのかはわからないけれども、母分散は、標本分散よりも、「標本平均と母平均の差を2乗した分だけ大きいはずだ」と推測できるのです。そして、偏差平方和をで割ることで、その期待値がと一致することがわかっているのです。(この「期待値が」っていうのが、また別の意味で「分からないポイント」だったりします。でも、これに深入りすると出てこれなくなるので、書きません。ごめんなさい。)
使ってもらえないデータの立場
話を少し戻して、(1) で割るか、(2) で割るかについてもう少し考えましょう。標本データは個あるのですから、で割るのがごく自然な考え方です。それをあえてで割るのはやはり不自然です。せっかく個集まったデータの中の、ある1個のデータに対して、「あ、ごめん。君は今回、数に入れないから」って言っているようなものですね。「数に入れないから」って言われたデータの立場にもなってみましょう。可哀そうじゃないですか?
でも、あえて「数に入れない」って言っているのは、それなりに理由もあるのです。少々ややこしい話になるので、というのデータで考えましょう。
平均を計算するときには、3つのデータが全部必要です。当然ですね。です。さて、問題は分散を計算するときです。
あれ、3つとも必要ですよ?
と、思いきや、ちょっと待って…と言いだすのは、実はです。「ちょっと待って。3つのうち、どれでもいいんだけど、たとえば7。7はこの式になくても、計算できる」とか言うんです。はあ?と思いませんか。もう少し、丁寧に話を聞いてみましょう。
- 平均値は、で計算したよね。
- これ、変形すると、たとえば、って書けるよね。
- だから、さっきの式の「7」のところを、って置き換えても答えは同じだよね。
置き換えて見ると、
うわあ、カッコが多すぎて見にくい! けれど、たしかに「7」がなくても分散を計算する式が書けてしまいます。
っていうことはさあ、僕たちって、データは確かに3つあるんだけど、「分散を計算するとき」に限っては、「実は2つ分のデータしかない」みたいに見えてるんじゃないの? (以上、さんの談話でした)
表を書いて確かめよう
くどいようですが、表を書いて確かめましょう。
3つのデータのうち、どれを隠しても、平均値の情報があれば、隠された値は計算できてしまいます。というわけで、分散の計算に関しては、
すでに「平均値」という情報があるのだから、もとのデータは、個あれば十分。どの値を計算に使ってもかまわないけど、任意に個を選べば十分。
となります。こののことを「自由度」といっています。「この個数までは、計算に使う値を自由に選んできていいよ。どれを選んでもいいよ。重要なのはその個数だよ。」ということです。
それが本当にぶんになるのかどうか、数式で確かめないと納得しない!という方は、「心理学統計法 '21」(放送大学教育振興会)の第9章などを参考に、ご自分でぜひ追求してみてください。難易度がかなり高くなるので、ここでは扱いません。(というか、書ける自信がない。)