趣味の統計

心理統計のはなし(偏差への偏愛ともいう)。Web上に散らばっている「アンケート」へのつっこみ。その他。

「つりあい」としての平均

つりあわせる実験、覚えてますか

「てこ実験機」におもりをぶらさげて、つりあう条件を調べよう、みたいな授業を受けた記憶はあるでしょうか。いまでも小学校5年生の理科の授業で扱われているようです。NHK for Schoolに動画があるので、見てみてくださいね。
www2.nhk.or.jp
さて、これによく似た考えで「平均」を考えることができるのですが、てこの実験と比べたときに気をつけなければならない重要なことがあります。それは、

  • 支点の両側におもりをかけるのではなく、おもりを掛けた状態で、支点を探す。
  • データはおもりを掛ける位置を示すのであって、重さを示すのではない。

データを「てこ実験機」にのせてみる

前回使用した仮想データを、てこ実験機にのせてみます。こうなります。

プロットしたところに、おもりが掛かっているとします。数字はおもりの位置を表しています。このとき、どこに支点を置いたらつりあうか、を考えるわけです。繰り返しますが、数字はおもりの「位置」であり、「重さ」ではありません。
では、やってみましょう。

どこに支点をおけばいいか試してみる

適当に支点をおいてみましょう。

オレンジ色のプロットは、支点より左側に掛かっているおもり、緑色のプロットは、支点より右側に掛かっているおもりです。
(支点からの距離×おもりの重さ)の合計が左右で等しくなればいいのです。が、おもりの重さはどれも同じなので、結局、支点からの距離の合計が等しくなればいいことになります。
しかし、どう見ても右側の方が重いようです。調整してみましょう。

こんどは右側が軽すぎるようです。もう一度。

画像だと微妙な感じですが、計算結果に基づくと、これでつりあっています。ここに支点を置くと、左右の「支点からおもりまでの距離の合計」が等しくなるのです。

平均とはこの支点=重心のこと

さきほど「計算結果に基づくと」と書きましたが、計算とは平均の計算です。前回示した通り、平均値は、偏差の合計を0にする値でした。これをてこ実験機でたしかめましょう。
オレンジ色のプロットは、平均値より値が小さいデータ点です。つまり、偏差が負の値になります。このデータの平均値は60で、すぐ右のデータ点は「58」なので、偏差は-2ですが、支点からの距離は、その絶対値である2ということになりますね。
一方、緑色のプロットは、平均値より値が大きいデータ点です。つまり、偏差が正の値になります。一番右のデータ点は「73」なので、偏差は13、支点からの距離も13ですね。
支点の左右で、支点からの距離の合計が等しいのですから、負の偏差の合計の絶対値と、正の偏差の合計が等しくなっているはずです。つまり、偏差の総和が0になっています。そのような点が、平均であり、「重心」なのですね。

データの本質は偏差にある

上で試したように、データをおもりに見立てた「てこ」では、それぞれのデータがどこにかかっているかが、釣り合わせるために重要でした。データがどこにかかっているか、つまり、支点からどっち側にどれだけ離れているかが重要なのですね。
支点とは「平均値」のこと、「どっち側」は右左、すなわち偏差の符号(正負)のこと、「どれだけ」は偏差の絶対値のことで、「どっち側にどれだけ」を表したものが偏差になります。
もちろん、データが1つ増えたら支点の位置も調整が必要なように、平均値も計算し直す必要があります。減った場合も同様ですね。
支点からすごく遠く離れた位置のデータが追加されてしまったら、支点を大きくずらさないと釣り合いません。平均値が外れ値の影響を受けやすい、というのは、このように理解できますね。

無限個のデータがあったら

ところで、無限個のデータがあったらどうでしょう。
実際に無限個のデータをてこ実験機にぶら下げることはできません。でも、仮に1万個のデータがすでにてこに掛かっていたとしたら、あと1個追加したところで(極端な外れ値でなければ)、ほとんどてこは動かないだろう、つまり、支点=平均値はほとんど動かないだろう、と考えられませんか?
これ、数式でやったほうがわかりやすいかなあ?
前回と同じように、データを公開しています。ご興味のある方はどうぞ。(そのままクリックすると、Googleスプレッドシートで表示されると思いますが、その場合、グラフがブログの画像の通りに表示されません。その場合は、ダウンロードしてExcelで開いてください。)
平均とは.xlsx