趣味の統計

心理統計のはなし(偏差への偏愛ともいう)。Web上に散らばっている「アンケート」へのつっこみ。その他。

シグマくんのはなし #14

分散公式ができた

これまで(#11~#13)分散の定義式を展開・整理して、分散公式を導く、というお話をしてきました。順に振り返ってみます。

#11:カッコを展開して分身の術を使いました

 \displaystyle \begin{aligned} 
s^2 &= \frac1n \sum_{i=1}^n (x_i - \bar x)^2 \\
&= \frac1n \sum_{i=1}^n \Big(x_i^2 - 2 x_i \bar x + \bar x^2 \Big) \\
&= \frac1n \sum_{i=1}^n \Big(x_i^2\Big) +
\frac1n \sum_{i=1}^n \Big( - 2 x_i \bar x \Big) +
\frac1n \sum_{i=1}^n \Big(\bar x^2 \Big) 
\end{aligned}

#12:3つ目のシグマくんに、エヌがくれの術を使いました

 \displaystyle \frac1n \sum_{i=1}^n \Big(\bar x^2 \Big) = \frac1n \times n \times \bar x^2 = \bar x^2

#13:3つ目のシグマくんに、まとめ掛けの術を使いました

 \displaystyle \frac1n \sum_{i=1}^n \Big( - 2 x_i \bar x \Big) = 
\frac{-2 \bar x}{n} \sum_{i=1}^n x_i = \frac{-2 \bar x}{n} \times n \times \bar x = -2 \bar x^2
ここでは、平均値のn倍はデータの合計に等しい(n\bar x = \sum x_i)という知識も使っていましたね。

というわけでまとめると

2つ目、3つ目のシグマくんを、#12、#13でやったように置き換えると、

 \displaystyle \begin{aligned} 
s^2 &= \frac1n \sum_{i=1}^n \Big(x_i^2\Big) +
\frac1n \sum_{i=1}^n \Big( - 2 x_i \bar x \Big) +
\frac1n \sum_{i=1}^n \Big(\bar x^2 \Big) \\
&= \frac1n \sum_{i=1}^n \Big(x_i^2\Big) -2\bar x^2 + \bar x^2\\
&= \frac1n \sum_{i=1}^n \Big(x_i^2\Big) - \bar x^2
\end{aligned}

となりました! これが「分散公式」といわれる式です。

分散公式の使い道

分散公式の使い道は、かつては、「分散の手計算」でした。つまり、電卓で分散を計算するときに、定義式より分散公式のほうが計算しやすいのです。 なぜかというと、「それぞれのデータから平均値を引いて2乗する」という計算が、(特に平均値が整数でない時に)地味にやっかいだからです。経験した方はよくお分かりだと思います。
しかし、分析ツールが使える現代において、分散を手計算する場面は、統計学の試験の時間ぐらいしかありません。たったそれだけのために、分散公式を覚えるのは非効率に過ぎます。ですから、これ、統計ツールを使うのが主目的であるなら、ほとんど覚える必要のない式です。
ただし、統計学を理論的に学びたい方は、このくらいの式変形でへこたれてはいられません。要するに、統計を学ぶ目的、目標地点がどこにあるかで違うのです。
では、どうしてそんな、「覚える必要のない式」のことで4回もブログを書いたのか。
分散公式を使うと、「あ、分散分析ってこういうことか」ということを理解するためのヒントが得られる、と私が考えているからです。
ですから、「あ? 分散分析? 簡単じゃん!」とか思っておられる方は、ここでさようならしてください。そうでない方、歓迎いたします。

平均値が小数? 丸めればよくね?

では、分散分析の理解のために、分散公式をどう使っていくのか。そのヒントになった、私の過去の疑問について、次回からお話していきます。

平均値が小数のとき、分散公式を使うといい、というけど、そんなの使わなくたって、平均値を丸めて計算したらいいんじゃね?
あれ? ひょっとして、平均値丸めて計算したら、とんでもないことになるのかなあ? だったら困るんですけど。

さて、みなさん、どう思われますか? 具体的には、次のような状況です。

データをちょっとだけ変えて、 x=(2,4,7,8,10)とします。平均値は6.2になります。偏差は、 2-6.2=-4.2、2乗すると-4.2\times -4.2=17.64、ひええ~。助けて。(と私なら思います)
だから分散公式を使いましょうよ、と統計の先生はおっしゃるのですが、私は、上に書いたように、「え? 平均=6に丸めたらだめなん? どれくらいだめなん?」と思ったのですね。
これの解決は次回から。