趣味の統計

心理統計のはなし(偏差への偏愛ともいう)。Web上に散らばっている「アンケート」へのつっこみ。その他。

シグマくんのはなし #12

分散公式を導く:つづき

前回は、分散の定義式を展開し、シグマくん「分身の術」を使うところまでをお話しました。前回までの式変形を整理しておきましょう。

青い数字は平均値、赤い数字は展開の途中で出てきたもので、データの数値とは区別しましょう。
では、式変形を続けていきましょう。

3つ目のシグマくんを変身させよう

3つ目のシグマくんに注目します。3つ目だけ取り出してみましょう。

一番上の数式部分を見ると、シグマくんの中には\bar x^2が入っています。xという字が使われていると、「あ、変数ね」と思ってしまいますね。でも、その下に示しているように、\bar xはデータの平均値で(もちろんデータが変われば変わるので、その意味では変数なんですが)、変化しない値と同じように扱えます。
そう言われてもなんか不安、という方は、 \bar x^2に、添え字 i がついていないことに注目してください。以前にお話したように、添え字 i はデータの背番号ともいうべきもので、1つ1つのデータを区別するためのものでした。それがついていない、ということは、添え字 i が変わっても、 \bar x^2の値が変わることはない、と考えていいのです。
というわけで、3つ目のシグマくんは、 \bar x^2を単にn回足す計算をしているだけですから、掛け算に直せます。「エヌがくれの術」ですね。次のように書き換えられます。

斜体になっているのは、データの個数です。ここではn=5で考えています。数式と照らし合わせてください。
 \displaystyle \frac1n \sum_{i=1}^n \Big( \bar x^2 \Big) = \frac1n \Big( \bar x^2 \times n \Big) = \bar x^2
シグマくんの前に\frac1nがありますから、最後はnを約分して、\bar x^2だけになりました。すごい!

最後の強敵は2つ目のシグマくん

ということで、残ったのは2つ目のシグマくんです。
このシグマくんをどう扱ったらいいのか、私は過去にさんざん悩みました。いまから考えると、「なんでそんなことがわからなかったのかなあ~~」と思うのですが、当時は真剣だったんですね。
わかってみれば簡単(だと思う)なのですが、当時は、やはり具体的な数値に置き換えないと納得できなかったのです。
次回はこの2つめのシグマくんを、びっくりするほど簡単に変形します。