シグマくんのはなし #10

分散を計算しよう

では、今回はシグマくんを使って「分散」を計算する、ということをしてみましょう。まずは、分散の定義式の確認からです。

分散の定義式

分散は、次の式で定義されています。
$\displaystyle \frac1n \sum_{i=1}^n (x_i - \bar x)^2$
なかなか複雑ですね。もう少し簡単にするために、シグマくん的に書き直してみましょう。シグマくんの守備範囲にあるのはカッコの中全体ですが、カッコの中をよく見ると、データ（ $x_i$ ）から、データの平均（ $\bar x$ ）を引き算しています。で、引き算したものを2乗する、ということです。つまり、

ということですね。ところで、データ（ $x_i$ ）から、データの平均（ $\bar x$ ）を引き算した値は「偏差」といいましたね。だから、より簡単に書くと、

ということです。シグマくんの前にエヌいちくんがいますから、合計した後、ｎで割るということです。つまり、偏差の2乗を「合計してからｎで割る」、言い換えると、偏差の2乗を「平均する」、これが分散になるのですね。

2乗するのはなぜか

統計の教科書では、「なぜ偏差を２乗するのか」について、いろいろな説明がされています。

偏差を二乗しないで足し合わせれば、その数は必ず0となる。これは、平均値よりも大きい値と小さい値が相殺してしまうからだ。（林 (2012) 「社会統計学入門」）
この数式で偏差が2乗されているのは、偏差をそのまま利用すると正の値と負の値が相殺されてしまうため、全ての偏差を正の値にするためだと考えてよい。（小野寺 2015 「心理・教育統計法特論」）

偏差をそのまま合計すると0になることは、すでに何度か確認しましたね。全て正の値にするためなら絶対値でもいいんじゃね？　という考えに対しては、

プラスとマイナスが打ち消し合うからゼロになってしまうわけで，符号の影響をなくすべく二乗しているのだと思ってください。符号をなくすのには絶対値でもいいのですが，絶対値は数式で書けないから使いにくいのです。（小杉 (2023) 「心理学データ解析基礎」）

という説明があります。より本質的には、おそらく、「平均から離れた位置にあるデータは、そもそも発生確率がとても低い。ということは、情報価値が高い。よって、その価値をより高く評価するため」という考えかたもできます。深入りするととんでもないことになるので、これ以上触れませんけど。

まず具体的な数値で計算しよう

では、前回使ったデータ、 $x = (1,4,7,8,10)$ を使って、分散を計算してみましょう。

左端がデータです。平均は６でした。それぞれのデータから、平均の6を引く、というのが偏差の計算式でしたね。偏差は右から2番目の列で、合計が0になります。偏差を2乗したのが一番右の列です。偏差の2乗を平均したものが分散というわけです。このデータの分散は10でした。