趣味の統計

心理統計のはなし(偏差への偏愛ともいう)。Web上に散らばっている「アンケート」へのつっこみ。その他。

シグマくんのはなし #11

分散公式を導く

前回は分散の定義式の話をしました。今回は、分散の定義式を展開して、分散公式を導く、ということをしてみます。どうしてわざわざ式の展開をするかというと、式の展開の中で、シグマくんの変身術が見事に生かされるのを目撃することができるからです。では、復習から。

分散の定義式

定義式はこうなっていました。分散は通常、 s^2と書くことが多いので、ここでもそれにならいます。
 \displaystyle s^2 = \frac1n \sum_{i=1}^n (x_i - \bar x)^2
さてここで、いったん復習モードに入ります。

文字式の展開って覚えてますか?

中学校の数学で、文字の式を展開したり、因数分解したり、ということを習ったと思います。こんなやつです。
\displaystyle (a-b)^2 = (a-b)(a-b) =a^2 - 2ab + b^2
真ん中の式は書かなくてもいいんです。私はこれを復習するときに、真ん中の式の形がないと思い出せなかったことがあるので、ちょっと書いてみただけです。ほかにも、(a+b)^2とか、(x+a)(x+b)とか、いくつかパターンがありましたよね。
なんでこの話をしているかというと、この式の、a x_iに、b \bar xにすると、分散の定義式の、シグマくんの右側と同じになる、ということが言いたいのです。分散の式の方は、どっちにもxが入っているし、添え字だの、バーだの、変なモノがくっついているので、分かりにくくてうっとうしい感じはあるのですが、よく見ると同じ形をしていますね。
では、展開してみましょう。かっこの部分だけ取り出して、さっきの中学校の数学の式と並べて書いてみますね。
 \displaystyle \begin{aligned} (a - b) ^2&= a^2 - 2ab + b^2 \\
(x_i - \bar x)^2 &= x_i^2 - 2 x_i \bar x + \bar x^2 \end{aligned}
どうでしょう。迷子にならないように、数値の表と照らし合わせておきましょう。

表の中の青い数字 6 は平均値です。文字の式では \bar xと書いてあります。また、赤い数字 2 は式の展開の中で出てきたものです(真ん中の項、- 2 x_i \bar xの2ですね)。黒い数字はデータです。 i が変わると数が変化するのはここだけです。
なんだか、計算する手間が増えただけで、いいことがないように見えますが。

とりあえず「分身の術」

かっこを展開したので、分散の定義式は次のように形を変えました。
 \displaystyle \begin{aligned} s^2 &= \frac1n \sum_{i=1}^n (x_i - \bar x)^2 \\
&=\frac1n \sum_{i=1}^n \Big( x_i^2 - 2 x_i \bar x + \bar x^2 \Big)\end{aligned}
大きめのかっこがついているのは、ここまでがシグマくんの守備範囲だからです。
さて、シグマくんの変身術を学んできた皆さんは、ここでまず「分身の術」が使えることにお気づきでしょうか。カッコの中が、3つの項に分かれていますので、シグマくんを3つに分身させることができます。
やってみましょう。
 \displaystyle \begin{aligned} s^2 
&=\frac1n \sum_{i=1}^n \Big( x_i^2 - 2 x_i \bar x + \bar x^2 \Big) \\ 
&=\frac1n \sum_{i=1}^n \Big(x_i^2\Big) + \frac1n\sum_{i=1}^n \Big(-2x_i \bar x\Big) +\frac1n \sum_{i=1}^n \Big(\bar x^2\Big) \end{aligned}
大きめのカッコをいちいちつけているのは、それぞれのシグマくんの守備範囲を明示するためです。ここでも、数値の表と照らし合わせておきましょう。

どうでしょう。さきほどの数値の表に、縦に線をひいて3つに分割した形になっていることを確認してくださいね。

さて。
1つめのシグマくんは、これ以上簡単にはなりません。
3つめのシグマくんは、あの術が使えそうですね。
2つめが一番ややこしいですが、実はあの術が使えます。

この続きは次回に。