分散公式ができた
これまで(#11~#13)分散の定義式を展開・整理して、分散公式を導く、というお話をしてきました。順に振り返ってみます。
#11:カッコを展開して分身の術を使いました
#12:3つ目のシグマくんに、エヌがくれの術を使いました
#13:3つ目のシグマくんに、まとめ掛けの術を使いました
ここでは、平均値のn倍はデータの合計に等しい()という知識も使っていましたね。
というわけでまとめると
2つ目、3つ目のシグマくんを、#12、#13でやったように置き換えると、
となりました! これが「分散公式」といわれる式です。
分散公式の使い道
分散公式の使い道は、かつては、「分散の手計算」でした。つまり、電卓で分散を計算するときに、定義式より分散公式のほうが計算しやすいのです。 なぜかというと、「それぞれのデータから平均値を引いて2乗する」という計算が、(特に平均値が整数でない時に)地味にやっかいだからです。経験した方はよくお分かりだと思います。
しかし、分析ツールが使える現代において、分散を手計算する場面は、統計学の試験の時間ぐらいしかありません。たったそれだけのために、分散公式を覚えるのは非効率に過ぎます。ですから、これ、統計ツールを使うのが主目的であるなら、ほとんど覚える必要のない式です。
ただし、統計学を理論的に学びたい方は、このくらいの式変形でへこたれてはいられません。要するに、統計を学ぶ目的、目標地点がどこにあるかで違うのです。
では、どうしてそんな、「覚える必要のない式」のことで4回もブログを書いたのか。
分散公式を使うと、「あ、分散分析ってこういうことか」ということを理解するためのヒントが得られる、と私が考えているからです。
ですから、「あ? 分散分析? 簡単じゃん!」とか思っておられる方は、ここでさようならしてください。そうでない方、歓迎いたします。
平均値が小数? 丸めればよくね?
では、分散分析の理解のために、分散公式をどう使っていくのか。そのヒントになった、私の過去の疑問について、次回からお話していきます。
平均値が小数のとき、分散公式を使うといい、というけど、そんなの使わなくたって、平均値を丸めて計算したらいいんじゃね?
あれ? ひょっとして、平均値丸めて計算したら、とんでもないことになるのかなあ? だったら困るんですけど。
さて、みなさん、どう思われますか? 具体的には、次のような状況です。
データをちょっとだけ変えて、とします。平均値はになります。偏差は、、2乗すると、ひええ~。助けて。(と私なら思います)
だから分散公式を使いましょうよ、と統計の先生はおっしゃるのですが、私は、上に書いたように、「え? 平均=6に丸めたらだめなん? どれくらいだめなん?」と思ったのですね。
これの解決は次回から。