趣味の統計

心理統計のはなし(偏差への偏愛ともいう)。Web上に散らばっている「アンケート」へのつっこみ。その他。

分散は放物線の夢を見るか(2)

前回のまとめ

almondfish.hatenablog.com
前回は「偏差」の性質について書きました。そして、

どんなデータであれ、平均値からの偏差の総和は常に0になります。つまり、偏差の総和は、データの特徴を何も表すことができないのです。

という結論を出しました。だったら、負の偏差の値をどうにかして正の値に変換してしまえばいいのでは? という発想から、「絶対値にすればいいんじゃね?」というアイデアがあることに触れました。今回はこれを取り上げます。

Excelで計算しよう

データは前回と同じです。比較のために、絶対値を取る前の偏差のデータも残してあります。

絶対値をとった結果、総和は16、平均は3.2 になりました。では、前回と同じように、「偽の平均値」を使ったら、この値はどうなるでしょう。平均値(7)ではなく、偽の平均値(6)を使ってみましょう。

偏差の絶対値の合計は1だけ小さくなりました。なるほど、では、絶対値にした場合も、その合計は直線的に変化するのでしょうか。

一覧表にしてみよう

前回と同じように一覧表にしてみました。sum |d| が、偏差の絶対値の総和です。変化量は、偽の平均値が1大きくなるごとに、偏差の絶対値の総和がどのように変化したかを示しています。

まず、sum |d| の変化を見てみると、表の上下で、総和の値がより大きくなっていることがわかります。偽の平均値を小さくしていくと(あるいは大きくしていくと)、偏差の絶対値の総和は大きくなるのです。V字型、あるいはU字型の変化をしているようですね。
では、もっとも小さくなるのは、偽の平均値が正しい平均値(7)のときかといえば、そうではありません。もっとも小さくなるのは偽の平均値が6のときで、これは、データの中央値と一致しています。
次に変化量を見ると、表の上の方では負の変化(つまりグラフが右下がり)、表の下の方では正の変化(つまりグラフが右上がり)になっています。V字型、あるいはU字型の変化ですから、当然このようになりますね。
でも、残念なのは、変化量に規則性がないことです。データに含まれる数値のところ色をつけてみました。

両端の値(2と14)を除けば、データに含まれる値のところで、変化量が変わっていることがわかるでしょうか。
偽の平均値が5より大きくなるタイミングで変化量が変わる。偽の平均値が6より大きくなるタイミングでまた変わる。そして、8より大きくなるタイミングでも変わる。表には記載されていませんが、2と14でも同じことが起きています。
つまり、偏差の絶対値の総和の変化のしかたは、データ(観測値の分布)に依存するのです。

グラフにしてみよう

こうなりました。

実際には、V字型でもU字型でもなく、「不規則な折れ線」になるのですね。データサイズが大きくなれば次第になめらかな曲線に近づいていくと思われますが、折れ線であることに変わりはありません。

だから何なの?

まあ、それはわかるけど、0にならなくなったよね。総和が一番小さいのは平均値ではなくて中央値ってところが、ちょっとひっかかるけど。これでいいんじゃね?
いえ。だめなんです。
なぜ?
なぜかというと、この「偏差の絶対値の総和の変化」は数式で表せません。
何言ってんの? 絶対値でしょ? 絶対値の記号あるじゃん! はい、論破!
いえ、論破できていません。
絶対値の記号はたしかにありますが、総和を数式で表すためには、「観測値>平均値」なのか、「観測値<平均値」なのかを場合分けする必要があります。この「場合分け」が数式で表せません。どうしても、2つの場合に分けて考える必要があるのです。上記のグラフを数式に表すとしたら、区間を少なくとも4つに区切って、それぞれ一次関数で表すしかありませんよね。
放送大学の「心理統計法 '11」という教科書に、場合分けして検討すると、偏差の絶対値の総和が最小になるのは中央値だということが(主任講師によれば正確性を欠く部分があるようですが)書かれています。上述のように、場合分けしたのちにそれを組み合わせると、いちおう数式で証明できるようです。かなり面倒で難しいので、私の手には負えません。
ということで、結論です。

偏差の絶対値の総和は確かに0にならず、偽の平均値の代わりに中央値を用いると、総和が最小になる。が、その変化の性質を数式で表現することができないこと、平均値との相性が今一つよくない(平均値のときに最小にならない)ことなど、今後の分析に使用するには大きな欠点を抱えている。したがって、データの性質(おもに散布度)をみる一つの指標にはなり得るが、それ以上の活用は望めない。

では、次回です。負の値を正の値にする方法として、「2乗する」があります。偏差を二乗して、その総和や平均を考えます。