分散公式と(シグマ)くん
前回の続きです。
almondfish.hatenablog.com
大きなお口のシグマくん
総和記号()は、見た目がいかついせいか、なかなかとっつきにくいイメージを持っている人も多いようですね。調べてないので適当ですけど。
この記号は次のように展開されることが普通です。
でも、私はこんな風に展開する方が好きです。
note.com
要するに、数字を積み上げて筆算するやつ(小学校でやったでしょ。ていうか、珠算の筆算みたいな)のイメージですね。シグマくんの口は伸縮自在なので、何個積み上げても一発で呑み込んで合計を答えてくれる。すごい。
平均をn倍したらそれは合計
話を戻しますと、総和記号が登場する数式で、かなりよく使われる変形が、これです。
両辺をn倍すると、こうなります。
つまり、総和記号の計算の中に、が入っていたら、総和記号を外して、に書き直していいのです。まあ、言われてみれば当然ですよね。
データの合計(左図の青の面積)と、平均値をデータサイズ倍したもの(右図のオレンジの面積)は、同じであるに決まっています。これを使うと、分散の定義式はきれいに変形できるのです。
分散定義式を展開しよう
では、分散定義式です。
ごく普通に、カッコを展開します。
はい。中学校で習った公式どおりですね。次に、総和の計算を3つに分割します。
ごつい記号が3つに増えて気分が悪いですが、もう少しの辛抱です。ここからは、3つの項を別々に考えましょう。
- まず、第3項を書き換えます。総和記号のなかに入っているのはで、この値は、 によって変化しない値です。つまりこの第3項は、をn回足してからnで割っているのです。なので、 です。
- 第1項はこれ以上どうしようもありません。ていうか、分散公式にこのまま登場します。
- さて、残るは第2項です。第3項のところで書いたように、 と は によって変化しない値です。つまり総和記号とは関係ないので前に出します。そうすると、 となります!
第2項も総和記号を外せる!
変形した第2項をよく見てみましょう。なんと、「平均をn倍したらそれは合計」を逆向きにして「データの合計は平均のn倍」という変形が使えるではありませんか!
私は、はじめてこれを自力で展開した時、かなりの達成感を感じたのを覚えています。そうです。単に展開するのと、総和記号の中で展開するのとでは、結果が明らかに異なるのです。
では、これを使って、分散定義式の展開を続けましょう。
展開の続き
第2項と第3項を書き換えます。
第2項と第3項は同類項なので、計算できます。(見た目はごついですが、要するにと同じですね。)
やりました! 分散公式を導くことができました!
分散計算を楽にするもう一つの方法?
さて、公式との格闘は無事に終わったのですが、これと並行して、私はある疑問について考えていました。
平均が4.2とか小数になったときに、2乗する計算が大変だから、近似値として、平均=4で計算してもいいんじゃね?
という、まことに正当な(あるいはサボり根性丸出しな)疑問です。
いやあ、でも2乗の計算はいるからなあ。たった0.2しかごまかして変えてないけど、分散計算したら、もんのすごく違う値になるかなあ…
さて、どう思われますか?
この疑問との格闘は、思ってもみない方向へと発展する可能性(当社比)を秘めていました(ひっぱります)。