趣味の統計

心理統計のはなし(偏差への偏愛ともいう)。Web上に散らばっている「アンケート」へのつっこみ。その他。

シグマくんのはなし #10

分散を計算しよう

では、今回はシグマくんを使って「分散」を計算する、ということをしてみましょう。まずは、分散の定義式の確認からです。

分散の定義式

分散は、次の式で定義されています。
 \displaystyle \frac1n \sum_{i=1}^n (x_i - \bar x)^2
なかなか複雑ですね。もう少し簡単にするために、シグマくん的に書き直してみましょう。シグマくんの守備範囲にあるのはカッコの中全体ですが、カッコの中をよく見ると、データ( x_i)から、データの平均(\bar x)を引き算しています。で、引き算したものを2乗する、ということです。つまり、

ということですね。ところで、データ( x_i)から、データの平均(\bar x)を引き算した値は「偏差」といいましたね。だから、より簡単に書くと、

ということです。シグマくんの前にエヌいちくんがいますから、合計した後、nで割るということです。つまり、偏差の2乗を「合計してからnで割る」、言い換えると、偏差の2乗を「平均する」、これが分散になるのですね。

2乗するのはなぜか

統計の教科書では、「なぜ偏差を2乗するのか」について、いろいろな説明がされています。

偏差を二乗しないで足し合わせれば、その数は必ず0となる。これは、平均値よりも大きい値と小さい値が相殺してしまうからだ。(林 (2012) 「社会統計学入門」)
この数式で偏差が2乗されているのは、偏差をそのまま利用すると正の値と負の値が相殺されてしまうため、全ての偏差を正の値にするためだと考えてよい。(小野寺 2015 「心理・教育統計法特論」)

偏差をそのまま合計すると0になることは、すでに何度か確認しましたね。全て正の値にするためなら絶対値でもいいんじゃね? という考えに対しては、

プラスとマイナスが打ち消し合うからゼロになってしまうわけで,符号の影響をなくすべく二乗しているのだと思ってください。符号をなくすのには絶対値でもいいのですが,絶対値は数式で書けないから使いにくいのです。(小杉 (2023) 「心理学データ解析基礎」)

という説明があります。より本質的には、おそらく、「平均から離れた位置にあるデータは、そもそも発生確率がとても低い。ということは、情報価値が高い。よって、その価値をより高く評価するため」という考えかたもできます。深入りするととんでもないことになるので、これ以上触れませんけど。

まず具体的な数値で計算しよう

では、前回使ったデータ、 x = (1,4,7,8,10)を使って、分散を計算してみましょう。

左端がデータです。平均は6でした。それぞれのデータから、平均の6を引く、というのが偏差の計算式でしたね。偏差は右から2番目の列で、合計が0になります。偏差を2乗したのが一番右の列です。偏差の2乗を平均したものが分散というわけです。このデータの分散は10でした。

「平均する」という動詞

余計なことかもしれませんが、「平均する」という書き方に注意してください。
少し前に、「平均は6でした」と書いてあります。これは、

データをそのまま、合計してnで割ると、6になった。

ということです。このようにして求めた値のことを「平均値」あるいは単に「平均」といいます。
ただし、「平均」という語にはもう一つの使い方があって、上の太字の部分、合計してnで割るという計算の仕方を、「平均(する)」と表現します。分散の計算では、

(A) まず偏差をもとめてそれを2乗する。偏差の2乗を、合計してnで割ると分散が求められます。

と書くところを、

(B) まず偏差をもとめてそれを2乗する。偏差の2乗を、平均すると分散が求められます。

と書いているわけです。あるいは、次のようにも書きます。

(C) まず偏差をもとめてそれを2乗する。偏差の2乗の平均が分散です。

これら3つの文(A~C)は同じ意味を表しています。
これら3つの文(A~C)では、「平均」という語が合計してnで割るという計算方法の意味で使われている、ということに、注意してみてください。
こんなことでも迷う人がいらっしゃるかもしれないと思い、書き加えました。

分散の定義式から、分散公式への変形については、次回。