趣味の統計

心理統計のはなし(偏差への偏愛ともいう)。Web上に散らばっている「アンケート」へのつっこみ。その他。

シグマくんのはなし #17

平均を丸めたら:続きの続き

前回までの式変形を復習しましょう。分身の術を使って、この形までたどり着きました。
 \displaystyle v′=\frac1n \sum_{i=1}^n ((x_i − \bar x)^2)+ \frac1n \sum_{i=1}^n (−2(x_i−\bar x)e)+\frac1n \sum_{i=1}^n (e^2) \tag{5}
では、3つのシグマくんを順にみていきましょう。まず3つ目から。

3つ目のシグマくんは「エヌがくれの術」

3つ目はこんな形をしていますね。
 \displaystyle  \frac1n \sum_{i=1}^n (e^2)
シグマくんの中にある e^2は、正しい平均値とのずれ(e)を2乗したものですから、添え字iが変わってもいつも同じ値です。こういうときは「エヌがくれの術」が使えるのでした。したがって、
 \displaystyle  \frac1n \sum_{i=1}^n (e^2) = \frac1n \times n \times e^2 = e^2
はい、簡単でしたね。

2つ目のシグマくんはまず「まとめ掛けの術」

2つ目はこんな形です。
 \displaystyle \frac1n \sum_{i=1}^n (−2(x_i−\bar x)e)
ごちゃごちゃしていますが、-2eは、あとからまとめて掛け算できる数です。「まとめ掛けの術」を使って、シグマくんの前に出してしまいましょう。したがって、
 \displaystyle \frac1n \sum_{i=1}^n (−2(x_i−\bar x)e) = \frac{-2e}n \sum_{i=1}^n (x_i−\bar x)
はい、ちょっといい感じになりましたね。ここで「あれ」が使えます。何かというと、「偏差の合計は0、偏差の平均も0」が使えます。最後にくっついている \sum_{i=1}^n (x_i-\bar x)は0になるのです。そうすると、
 \displaystyle  \frac{-2e}n \sum_{i=1}^n (x_i−\bar x) = \frac{-2e}n \times 0 = 0
なんと。0になりました。消えました。
え? ほんとに? と思ってしまった方のために、数値の表を貼っておきます。よーくながめて、納得してください。

1つ目のシグマくんは…?

残ったのは1つ目のシグマくんです。この形、どこかで見た覚えがありますよね。余計なカッコを1組はずすと、
 \displaystyle \frac1n \sum_{i=1}^n ((x_i − \bar x)^2) = \frac1n \sum_{i=1}^n (x_i − \bar x)^2
データから平均を引いて(つまり「偏差」を計算して)、それを2乗して、合計してnで割る。そうです。これは「分散の定義式」ですね。正しい平均値を使って計算した正しい分散です。ですから、分散の記号s^2で置き換えてしまいましょう。

まとめると

では、ここまでを整理してみましょう。今回の冒頭に書いた式は、こんなふうに簡単になりました。
 \displaystyle \begin{aligned} v′ &=\frac1n \sum_{i=1}^n ((x_i − \bar x)^2)+ \frac1n \sum_{i=1}^n (−2(x_i−\bar x)e)+\frac1n \sum_{i=1}^n (e^2) \\ &= s^2 +0+ e^2  \\ &= s^2 + e^2\end{aligned} \tag{6}
つまり、こういうことです。

丸めた平均値を使って計算した分散の近似値は、正しく計算された分散の値に比べて、「正しい平均値と丸めた平均値との差(e)」の2乗だけ、大きくなる。

これ、必ず「大きくなる」のがポイントです。正しい平均値を使った時に、分散は(あらゆる近似値と比較して)最も小さい。平均値がずれればずれるほど、「ズレた分の2乗だけ大きくなる」のです。

平均値とは

これまでにも、平均値についてさまざまな説明をしてきました。

  • 平らに均した値としての平均値
  • データの重心としての平均値
  • 偏差の合計を0にする値が平均値

これに加えて、

  • 偏差平方和(これをnで割ったのが分散でした)を最小にする値が平均値

であることが、ここで証明されたことになります。実はこれ、あの、ガウス先生がちゃんと証明しているそうなんですね。知らなかった。その話は今回はスルーするんですけど。(ガウス先生ごめんなさい!)

では、次回からいよいよ、分散分析の解明に進みます。