趣味の統計

心理統計のはなし(偏差への偏愛ともいう)。Web上に散らばっている「アンケート」へのつっこみ。その他。

分散は放物線の夢を見るか(3)

前回までのまとめ

almondfish.hatenablog.com
almondfish.hatenablog.com
1回目では、「平均値からの偏差の総和は常に0であり、データの特徴を何も表すことができない」ということを書きました。
2回目では、「偏差の絶対値の総和は、偽の平均値を中央値にしたとき最小になる。が、その変化の性質を数式で表現することができない。データの性質の一つの指標にはなり得るが、それ以上の活用は望めない」ということを書きました。
3回目は、「平均値からの偏差の二乗」について書きます。統計学の教科書では、単に「偏差二乗」あるいは「偏差平方」と書かれていることがあります。

Excelで計算しよう

データは前回と同じです。比較のために、絶対値を取る前の偏差のデータも残してあります。「d_i^2」が偏差の2乗の値です。「^2」は「2乗」の意味です。

平均値からの偏差を二乗してから平均を取る、というのは「分散」の計算方法そのものです。ですから、関数を使って計算した分散の値と一致します。また、偏差二乗の総和は「平方和」とか「変動」とか呼ばれることがあります。教科書によってはこの用語を使っています(分散分析の話にもよく出てきますね)。
では、例のごとく、偽の平均値を使ってみましょう。

正しい平均値よりも小さい値を偽の平均値として使っているのに、偏差二乗の総和は5だけ大きくなりました。ということは、絶対値のときのように、V字あるいはU字型のような変化をするのでしょうか。

一覧表にしてみよう

「sum d^2」が偏差二乗の総和、変化量は、偽の平均値が1大きくなると偏差二乗の総和がどれだけ大きくなるかを示しています。変化量が一定ではないので、「変化量の変化量」も計算してみました。

予想した通り、偏差二乗の総和は、偽の平均値が大きいほど(そして小さいほど)大きな値になっています。そして、偽の平均値ではなく正しい平均値(7)を使った時に最も小さくなり、偽の平均値が1大きく(小さく)なると5大きくなり、2大きく(小さく)なると20大きくなる、というように、平均値を中心に上下対称に変化することが分かります。
そして、注目したいのは「変化量の変化量」です。この値が一定になるということは、どういうことでしょうか?

突然ですが y=x^2について

ここで突然ですが、 y=x^2という関数について考えてみましょう。xが1ずつ変化すると、y(つまりx^2)がどう変化するかを、上と同じような表にしてみます。すると、

x^2は、x=0のとき最も小さくなり、やはり上下対称に変化します。また、変化量の変化量は一定の値になります。
要するに、f(x)=x^2微分するとf'(x)=2xになり、もう一度微分するとf''(x)=2になります。この「2」がここに表れているのですね。微分の話を出したくないのでスルーしていますが、こっちのほうが分かりやすい方もおられるでしょう。
ご存知のように、y=x^2という関数は、グラフにすると「放物線」を描きます。偏差二乗の総和は、表にしたときにy=x^2という関数と同じような変化をすることがわかりました。では、グラフにしたときも、放物線を描くのでしょうか。やってみましょう。

グラフにしてみよう

こうなりました。

偽の平均値の値が6~8あたりが少しカクカクしていますが、偽の平均値を0.1刻みで動かしてやると、もっときれいに放物線になります。この放物線は、数式にすると、
ss = 5 \times (m-7)^2+80ssは偏差平方の総和、mは偽の平均値)
という式になります。mに、偽の平均値(2~14)をあてはめて、計算結果が偏差二乗の総和に等しくなることを、確かめてみてくださいね。

まとめ

今回は、偏差二乗の総和について考えました。その結果、偽の平均値を動かしていくと、偏差二乗の総和は放物線を描いて変化しました。そして、その値が最小になるのは、偽の平均値ではなく、正しい平均値を使った時でした。
このことは、偶然ではありません。いつも、どんなデータでも、「正しい平均値を使って計算した偏差二乗の総和」が、ほかのどんな偽の平均値を使った偏差二乗和の総和より小さいのです。つまり、平均値というのは、データとその値との偏差二乗和を最小にするような値のことなのです。
以上のことは、数式を使って証明しておいた方がいいようにも思いますが、まあ、気が向いたら書きます。
さて、「分散は放物線の夢を見るか」はさしあたり今回で完結です。ずっと「偏差二乗の総和」の話をしていますが、これをnで割ったものが「分散」ですね。なぜnで割るかというと、偏差二乗の総和は、nが大きい方が当然大きくなりますから、nが異なるデータ同士を比較するために、nで割るのですね。それから、分散の正の平方根標準偏差といいます。標準偏差は、統計の教科書のずいぶんあちこちに登場して、偉そうな顔をしていますが(?)、分散のままだと数値が大きすぎするのと、二乗して計算しているので単位が訳の分からないことになってしまっている、というのがその理由のようです。しかし。もっと本質的には、「距離」を表すためだと考えられます。おっと、この話をするためには、ベクトルの話をしなくてはいけませんので、とりあえずここまで。