趣味の統計

心理統計のはなし(偏差への偏愛ともいう)。Web上に散らばっている「アンケート」へのつっこみ。その他。

シグマくんのはなし #09

平均の意味について(シグマくんによる説明)

以前の記事で、平均の意味について今更っぽいお話を書きました。
almondfish.hatenablog.com
この記事の中で、次の図を使っています。棒グラフの高さをデータの値とした時、平均値(赤い破線)を正しく定めると、平均値よりも大きい部分(オレンジ色=これはつまり正の偏差)と、平均値よりも小さい部分(水色=負の偏差)の合計が等しくなる。つまり、偏差の合計が0になる、という話をしています。

今回の記事では、このことを、シグマくんをつかった数式で確かめておきます。またまた、今更ながらの話なのですが、次の分散公式に行く前の練習ということで。

用語の整理

シグマくんに登場してもらう前に、具体的な数値で、「偏差の合計が0になる」ことを確かめておきましょう。データとして、 x = (1, 4, 7, 8, 10) を使うことにします。
よい機会なので、ここで「シグマくん」のはなしで使っていた用語を、通常、統計学で使う用語に言い換える練習をしていきましょう。

  • 「シグマくん」に合計してもらう「数たちの集まり」は、  (1, 4, 7, 8, 10) です。こういう「数たちの集まり」のことを、一般に「データ」といいます。
    • 「データ」という言葉はこれ以外にもさまざまな意味で使われることがあるので、数たちの集まり以外にも、「いや、こういうのも普通、データっていうよ」という例はあると思います。でも、ここではそういう議論はしません。
  • この「データ」には5つの数が含まれています。これを、「n = 5」と書きます。
    • この「 n 」は、何かの頭文字なのでしょうが、これについても今は議論しません。シグマくんの頭についている「n」はここからきている、ということは以前に話しました。
  • 「データ」の前に、 x = というのがついています。これは、データの名前です。
    • これまで「数たちの集まり」と呼んできましたが、ここでは「 x 」という名前がついていますので、この記事では、「 x 」という名前で呼びます。「 x 」と書いてあったら、「ああ、さっきの5つの数が入った集まりのことだな」と理解してください。

平均の計算

 x の平均値は次の通りですね。(電卓で確かめてくださいね)
 \bar x = (1+4+7+8+10) \div 5 = 6
式の先頭に書いてある \bar xは、「エックスバー」とよみます。「バー」は、エックスの上にある横線のことですね。「xの平均」のことを、「\bar x」と書くというのも、統計学でのお約束になっています。

総和記号を使うとこうなる

総和記号を使って書いてみましょう。
 \displaystyle \bar x = \frac 1n \sum_{i=1}^{n} x_i = \frac 15 \times (1+4+7+8+10) = 6
総和記号の式から、次の式に変形するところで、次のことをしています。

  1. n=5」だとわかっているので、「n」と書いてあるところを5に書き直しました。
  2. したがって、 \frac 1nを、 \frac 15に書き直しました。
  3. \sum(総和記号)は、データxに入っている数を背番号順に呼び出して合計していく計算でしたから、数を順に呼び出して足し算しています。これがかっこの中の計算です。

これで、すぐ上に書いた計算式と同じになりましたね。総和記号を使った式を、見慣れた式に直せるように、慣れていってください。

偏差とその合計の計算

偏差とその合計を計算しましょう。少々くどいかもしれませんが、筆算の形になるように書いていきましょう。正の偏差をあえて「+1」のような書き方をしていますが、見た目を揃えるためだけに、このようにしています。
  \begin{aligned} &(i=1) &1-6 =& -5 \\
&(i=2) &4-6=& -2\\ &(i=3) &7-6 =& +1 \\
&(i=4) &8-6=& +2 \\ &(i=5) &10-6=& +4 \end{aligned}
ここで、シグマくんを使って書き直す前に、確かめてほしいことがあります。引き算の式が書かれていますが、「-」記号の前にあるのは、データxの数です。これは、5つ合計すると30になります。「-」記号の後ろにあるのは、データxの平均値である6です。これを5つ合計すると(つまり5を掛けると)30になります。当然ですよね。このことが、シグマくんの式の中にも出てきます。

総和記号を使うとこうなる

同じようにやってみましょう。まず途中まで。
統計学の教科書風に書くと、
 \displaystyle \sum_{i=1}^n (x_i - \bar x) = \sum_{i=1}^n x_i - \sum_{i=1}^n  \bar x = \sum_{i=1}^n x_i  - n \times \bar x
これをシグマくん風に書くと、
 \displaystyle \sum_{i=1}^n (データ_i - 平均) = \sum_{i=1}^n データ_i - \sum_{i=1}^n  平均 = \sum_{i=1}^n データ_i  - n \times 平均
データ以外を、具体的な数に置き換えましょう。n=5, \bar x=6ですから、
 \displaystyle \sum_{i=1}^5 (データ_i - 6) = \sum_{i=1}^5 データ_i - \sum_{i=1}^5  6 = \sum_{i=1}^5 データ_i  - 5 \times 6

はじめに、シグマくん「分身の術」を使っていることがわかるでしょうか。左側の式では、シグマくんの守備範囲はカッコの終わりまでです。カッコの中に引き算があるので、この位置で分身の術が使えて、真ん中の式になります。
次に、シグマくん「エヌがくれの術」を使っています。「平均(\bar x)」はいつでも(データの背番号が変わっても)同じ値なので、掛け算に書き直せるのですね。そうすると、右の式になります。
最後に、「データ」の部分も数値に置き換えましょう。
  \displaystyle \sum_{i=1}^n x_i  - n \times \bar x = (1+4+7+8+10) - (5 \times 6) = 0
たしかに、偏差の合計は0になりましたね。

式変形をまず「見慣れる」、次に「写経してみる」

ここまで、偏差の合計が0になることについて、総和記号を使った式で示す、ということをしてきました。このような式の変形は、多くの人にとってはとても煩雑なことだと思います。自分にとって分かりやすい教科書を参考にしながら、式の表現や書き換えに、まず「見慣れて」、自分の手で「書き写して」(写経すると言います)、少しずつ、理解を確かなものにしていただきたいと思います。