趣味の統計

心理統計のはなし(偏差への偏愛ともいう)。Web上に散らばっている「アンケート」へのつっこみ。その他。

分散公式から学んだこと(3)

四捨五入した平均値を使ったら

前回の最後に、データの平均値が4.2とか小数になったら分散の計算がめんどうなので、四捨五入して4にしてしまえばいいんじゃないの? という疑問について書きました。
almondfish.hatenablog.com
この疑問に対する答えは、過去の記事ですでに出ています!(さて、どの記事でしょうか?) が、ここでは、分散の定義式をもとに、この疑問に答えていきたいと思います。

Excelで計算しよう

例として、「分散公式で学んだこと(1)」で用いた次のデータを使います。
観測値:x=\{1,2,4,6,8\}、平均:(1+2+4+6+8) \div 5=21 \div 5=4.2

左の表は正しく計算した平均値(4.2)を使って偏差二乗の平均(=分散)を計算しました。分散は6.56です。
右の表は四捨五入した平均値(4)を使って偏差二乗の平均(=分散の近似値?)を計算しました。答えは6.6になりました。
その差は0.04です。平均値を0.2小さくしているのに、分散は0.04だけ大きくなっています。重要なのは、
1. 平均値を四捨五入したことによる差(0.2)よりも分散とその近似値との差(0.04)のほうがかなり小さいということ
2. 平均値を四捨五入して小さくしたのに、分散の近似値はは大きくなっていること
です。そんなの当たり前じゃん! と、その理由を話せる人は、もうこれ以上読まなくていいです。私よりずっと詳しいです。
では、上に書いた2つの点について、数式で説明しましょう。

数式による説明

まず、分散の定義式を再確認します。データから平均値を引いて2乗したものを合計してnで割るのですね。
 \displaystyle V(x) = \frac1n \sum_{i=1}^n (x_i - \bar x)^2
平均値の代わりに、四捨五入した値を使うということは、平均値に誤差(e)がくっついていると考えます。上の例でいうと、 e = -0.2ですね。これを数式に表すと、次のようになります。
 \displaystyle V'(x) = \frac1n \sum_{i=1}^n (x_i - (\bar x + e))^2
総和記号の中を整理します。知っている形が現れるようにすることがコツだと思います。
 \displaystyle = \frac1n \sum_{i=1}^n ((x_i - \bar x )+ e)^2
 (x_i - \bar x )をカタマリのままにしておいて、2乗のカッコを展開しましょう。
 \displaystyle = \frac1n \sum_{i=1}^n (x_i - \bar x )^2 + 2e(x_i - \bar x ) + e^2
総和の計算を3つに分割します。
 \displaystyle = \frac1n \sum_{i=1}^n (x_i - \bar x )^2 + \frac1n \sum_{i=1}^n 2e(x_i - \bar x ) + \frac1n \sum_{i=1}^n e^2
さて、ここからは3つの項を別々に見ていきましょう。

  • 第1項は、最初に書いた式と同じですよね。つまり、分散の計算式そのものですから、 V(x)と書き換えることができます。
  • 第3項は、 e^2をn回足してnで割っていますから、結局 e^2です。あれ? どこかで見たような感じがしません?
  • さて、問題は第2項です。この中で、2eの部分は、 iによって変化しない値なので、総和記号の外に出しましょう。すると、 \displaystyle 2e \times \frac1n \sum_{i=1}^n (x_i - \bar x )となります。よく見てみましょう。ここで総和しているのは何かというと、 x_i- \bar xです。これは「データから平均値を引いた値」、つまり「偏差」です。すでに過去記事で書いたように、偏差の総和は0になります。ということは、ややこしい形をしていましたが、この第2項は結局0になるのです。

ということで、さきほどの式は次のようにまとめられます。
 \displaystyle V'(x) = \frac1n \sum_{i=1}^n (x_i - \bar x )^2 + 0 + e^2
はい、明快ですね。平均値のかわりに四捨五入した値を使うと、「平均値と四捨五入した値との差」の2乗だけ大きい値が計算されるのです。
最初に示した例にあてはめてみましょう。
平均値は4.2でした。四捨五入した値4との差は0.2でした。2乗すると0.04です。
四捨五入した値を使って計算した分散の近似値(6.6)は、正しく計算した分散(6.56)よりも、0.04大きくなっていましたね。ということは、四捨五入して整数にした平均値を使っても、分散の近似値は、せいぜい0.25( 0.5^2 = 0.25)しかズレないのです。

とっくにわかっていることだぞ?

さて、上の数式展開でわかったことは、平均値の代わりに適当な定数を使って分散(の近似値)を計算すると、たしかにその値は放物線を描いて変化する、ということです。だって、 e^2だけ、分散とズレるのですからね。
でも、このことは、「分散は放物線の夢を見るか」ですでに書いたことと同じです。
なあんだ、同じネタか。
まあそうなんですが、これを図形で表してみると、ちょっと別のことに気づくのです。で、その図を載せたいのですが、上のデータを使うとあまりに変化が小さすぎて見づらいので、別のデータを使って、次の記事で書こうと思います。