趣味の統計

心理統計のはなし(偏差への偏愛ともいう)。Web上に散らばっている「アンケート」へのつっこみ。その他。

分散公式から学んだこと(2)

分散公式と\sum(シグマ)くん

前回の続きです。
almondfish.hatenablog.com

大きなお口のシグマくん

総和記号(\sum)は、見た目がいかついせいか、なかなかとっつきにくいイメージを持っている人も多いようですね。調べてないので適当ですけど。
この記号は次のように展開されることが普通です。
 \displaystyle \sum_{i=1}^5 x_i = x_1+x_2 + x_3 + x_4 + x_5
でも、私はこんな風に展開する方が好きです。
note.com
要するに、数字を積み上げて筆算するやつ(小学校でやったでしょ。ていうか、珠算の筆算みたいな)のイメージですね。シグマくんの口は伸縮自在なので、何個積み上げても一発で呑み込んで合計を答えてくれる。すごい。

平均をn倍したらそれは合計

話を戻しますと、総和記号が登場する数式で、かなりよく使われる変形が、これです。
 \displaystyle \frac1n \sum_{i=1}^n x_i = \bar x
両辺をn倍すると、こうなります。
 \displaystyle \sum_{i=1}^n x_i = n \times \bar x
つまり、総和記号の計算の中に、x_iが入っていたら、総和記号を外して、n \bar xに書き直していいのです。まあ、言われてみれば当然ですよね。

データの合計(左図の青の面積=\sum x_i)と、平均値をデータサイズ倍したもの(右図のオレンジの面積=n \bar x)は、同じであるに決まっています。これを使うと、分散の定義式はきれいに変形できるのです。

分散定義式を展開しよう

では、分散定義式です。
 \displaystyle \frac1n \sum_{i=1}^n (x_i - \bar x)^2
ごく普通に、カッコを展開します。
 \displaystyle = \frac1n \sum_{i=1}^n (x_i^2 -2x_i \bar x + \bar x^2)
はい。中学校で習った公式どおりですね。次に、総和の計算を3つに分割します。
 \displaystyle = \frac1n \sum_{i=1}^n x_i^2 -\frac1n \sum_{i=1}^n 2x_i \bar x + \frac1n \sum_{i=1}^n \bar x^2
ごつい記号が3つに増えて気分が悪いですが、もう少しの辛抱です。ここからは、3つの項を別々に考えましょう。

  • まず、第3項を書き換えます。総和記号のなかに入っているのは\bar x^2で、この値は、i によって変化しない値です。つまりこの第3項は、\bar x^2をn回足してからnで割っているのです。なので、 \displaystyle \frac1n \sum_{i=1}^n \bar x^2=\bar x^2 です。
  • 第1項はこれ以上どうしようもありません。ていうか、分散公式にこのまま登場します。
  • さて、残るは第2項です。第3項のところで書いたように、 2\bar xi によって変化しない値です。つまり総和記号とは関係ないので前に出します。そうすると、\displaystyle -2 \bar x\frac1n \sum_{i=1}^n x_i となります!
第2項も総和記号を外せる!

変形した第2項をよく見てみましょう。なんと、「平均をn倍したらそれは合計」を逆向きにして「データの合計は平均のn倍」という変形が使えるではありませんか!
\displaystyle -2 \bar x \frac1n \left( \sum_{i=1}^n x_i \right) = -2 \bar x \frac1n \times \Big( n \bar x \Big) = -2 \bar x^2
私は、はじめてこれを自力で展開した時、かなりの達成感を感じたのを覚えています。そうです。単に展開するのと、総和記号の中で展開するのとでは、結果が明らかに異なるのです。
では、これを使って、分散定義式の展開を続けましょう。

展開の続き

 \displaystyle \frac1n \sum_{i=1}^n x_i^2 -\frac1n \sum_{i=1}^n 2x_i \bar x + \frac1n \sum_{i=1}^n \bar x^2
第2項と第3項を書き換えます。
 \displaystyle = \frac1n \sum_{i=1}^n x_i^2 -2 \bar x^2 + \bar x^2
第2項と第3項は同類項なので、計算できます。(見た目はごついですが、要するに -2a^2+a^2と同じですね。)
 \displaystyle = \frac1n \sum_{i=1}^n x_i^2 -\bar x^2
やりました! 分散公式を導くことができました!

分散計算を楽にするもう一つの方法?

さて、公式との格闘は無事に終わったのですが、これと並行して、私はある疑問について考えていました。

平均が4.2とか小数になったときに、2乗する計算が大変だから、近似値として、平均=4で計算してもいいんじゃね?

という、まことに正当な(あるいはサボり根性丸出しな)疑問です。
いやあ、でも2乗の計算はいるからなあ。たった0.2しかごまかして変えてないけど、分散計算したら、もんのすごく違う値になるかなあ…
さて、どう思われますか?
この疑問との格闘は、思ってもみない方向へと発展する可能性(当社比)を秘めていました(ひっぱります)。