平均値を丸めると:つづき
平均値を丸めると、その(丸められた平均を使って計算された)分散は、本来の(正しい平均値を使って計算された)分散よりも、少しだけ大きな値になるようだ。というのが、前回の実験でわかったことでした。その大きさはどれくらいなのか、本来の平均値からのずれを使って、計算できるものなのか。これが、解き明かしていきたい問題です。次の数式を展開していきます。
ここで、は、本来の平均値からのずれを表しています。また、は、「分散の近似値」の意味で使っています。では、展開していきましょう。
中カッコの中を展開する
カッコが二重になっていてうっとうしいので、カッコをひとつ外して、中の形を変えます。こういう変形で、よく用いられる技があります。それは、
知っている形が現れるようにする
です。たとえば、分散公式の展開のときに、という関係を用いて、2つ目のシグマくんを簡単な形に直しましたね(#13)。こういう「知っている形」が、現れないかなあ~と期待しながら変形するのです。
中カッコ部分だけ取り出して、整理していきます。
中にある小カッコをはずしました。カッコの前にマイナスがあったので、の部分がに変わりましたね。カッコが1つしかないので、小カッコに戻せばいいのですが、ちょっと待ってください。
右側の式の、って、見たことある形ではありませんか?
データから(本来の)平均値を引いていますから、これは「偏差」です。そして、偏差の合計が0になる(平均も0になる)ことをすでに私たちは知っています。つまり、
です。ということは、という形を、ひとまとまりにして考えたほうが、式の変形が簡単になるのでは? どこかで「偏差の合計は0だもんね!」という知識が使えるのでは? と考えるのです。ということで、(2)の式を次のように変形してみましょう。
こうしておいて、の部分は「ひとまとまり」と考えて展開していきます。ひとまとまりにする、とは、(3)の式が、あたかも
であるかのように扱うのです。(と置き換えていますから、いずれ元に戻しますけどね。)
中カッコを(小カッコはそのまま)展開する
では、小カッコの中をさわらないようにして、中カッコを展開していきましょう。まとまりにした部分がくずれないように、と置き換えたまま進めていきましょう。
どうでしょう? 分散の定義式を展開したときと、見た目がよく似ていると思いませんか?(#11を思い出してください!)
あとは何をすればいいかというと、
- 分身の術でシグマくんを3つに分ける
- エヌがくれの術、まとめ掛けの術が使える場所を探して変形する
- 「データの合計は平均のn倍」「偏差の合計は0」などが使えないか考える
です。
分身の術
とりあえず、分身の術だけをやってしまいましょう。
シグマくんの守備範囲を明示するために、大きめのカッコでくくってあります(本来必要のないものです。)また、■を、本来の式であるに戻してあります。分身の術はここまでです。あとは、エヌがくれの術、まとめ掛けの術を1回ずつ、そして、「あれ」を使います。
続きは次回に。