趣味の統計

心理統計のはなし(偏差への偏愛ともいう)。Web上に散らばっている「アンケート」へのつっこみ。その他。

分散は放物線の夢を見るか(1)

今回から、3回くらいに分けて、以前の記事に書いた、

では、平均値として、偽の値を用いた時は、偏差の総和はどのようになるでしょう。

という問題を解決していきたいと思います。

偽の値を用いるって?

上述の記事で、次のような図を用いました。

赤い破線のところで平らに均したいのですが、この図では、その線がやや下過ぎて、負の偏差の合計(水色)よりも正の偏差の合計(ピンク)のほうが多くなってしまい、平らになりません。
この「赤い破線」の位置(Y座標)が、「偽の値」の一例です。
「赤い破線」を、ちょうどデータの平均値においたとき、負の偏差の合計と正の偏差の合計が、(絶対値として)同じになり、偏差の総和が0になるのでした。
ただし上の図では、「赤い破線」の位置が平均値よりも小さいために、正の偏差の合計が大きすぎ、結果として偏差の総和は正の値になると思われます。これを、きちんと計算して、その結果を可視化してみよう、というわけです。

Excelで計算しよう

では、Excelに仮想データを作って検証しましょう。数値が小さくて、できれば、やたらに小数が出てこないほうがとっつきやすいので、次のデータを使います。データが x_i(i=1,2,3,4,5)、偏差がd_iです。偏差は平均値からの偏差を計算しているので、総和は0になります。

ためしに、平均が6であると嘘をついてみましょう。次のようになります。

偏差の計算は d_i = x_i - \bar xですから、平均が1大きくなれば、偏差の値はそれぞれ1ずつ大きくなるはずですね。その通りになっていることを確かめましょう。データが5つあって、それぞれの偏差が1ずつ大きくなりますから、総和は5だけ大きくなります。では、平均が7でも6でもなく5であると嘘をついたら、と考えると、おおむね予想はつきますね。

一覧表にしてみよう

上述のような計算の結果を一覧表にしたのがこれです。左列のmが偽の平均値、sum dが(偽の平均値からの)偏差の総和です。

右端の「変化量」は、偽の平均値が1大きくなるごとに、偏差の総和がどれだけ変化したかを計算しています。
偽の平均値を1大きく(小さく)すると、偏差の総和は5だけ小さく(大きく)なることがわかります。偏差の総和は、偽の平均値の一次関数(偽の平均値の変化に伴って直線的に変化する)なんですね。

グラフにしてみよう

こうなります。

だから何なの?

どんなデータであれ、平均値からの偏差の総和は常に0になります。つまり、偏差の総和は、データの特徴を何も表すことができないのです。
もちろん、「この観測値は偏差(の絶対値)が大きい」「この観測値は偏差(の絶対値)が小さい」という、データごとの情報はわかります。他の観測値と比較して、偏差(の絶対値)が非常に大きい時は、その値を外れ値として扱う必要があります。ですから、観測値ごとの偏差は、それはそれで重要なのです。
しかし、記述統計の目的は、データの特徴を数値的に要約することです。平均値のように、データの特徴を1つの値にしたいのです。「偏差の総和は常に0だよ。平均値じゃなくて、別の値を使えば、どれだけでも大きく(小さく)なるよ。」では困るのです。
「偏差は正の値と負の値があるのだから、なんとか工夫して、符号を揃えればよいのです」みたいな話のつなぎ方をしている教科書もあるかもしれません。なんだその理屈? とも思うのですが、とりあえずそれにのっかって、「じゃあ、絶対値にしたらどうなん? ぜんぶ正の値になるから、総和が0になることはないぞ」という考えを、次回は検証しましょう。