趣味の統計

心理統計のはなし(偏差への偏愛ともいう)。Web上に散らばっている「アンケート」へのつっこみ。その他。

シグマくんのはなし #16

平均値を丸めると:つづき

平均値を丸めると、その(丸められた平均を使って計算された)分散は、本来の(正しい平均値を使って計算された)分散よりも、少しだけ大きな値になるようだ。というのが、前回の実験でわかったことでした。その大きさはどれくらいなのか、本来の平均値からのずれを使って、計算できるものなのか。これが、解き明かしていきたい問題です。次の数式を展開していきます。
 \displaystyle v' = \frac1n \sum_{i=1}^n \{x_i- (\bar x + e)\}^2 \tag{1}
ここで、 eは、本来の平均値からのずれを表しています。また、v'は、「分散の近似値」の意味で使っています。では、展開していきましょう。

中カッコの中を展開する

カッコが二重になっていてうっとうしいので、カッコをひとつ外して、中の形を変えます。こういう変形で、よく用いられる技があります。それは、

知っている形が現れるようにする

です。たとえば、分散公式の展開のときに、 \sum_{i=1}^n x_i = n \bar xという関係を用いて、2つ目のシグマくんを簡単な形に直しましたね(#13)。こういう「知っている形」が、現れないかなあ~と期待しながら変形するのです。
中カッコ部分だけ取り出して、整理していきます。
\displaystyle \{x_i- (\bar x + e)\} = \{x_i - \bar x  - e \} \tag{2}
中にある小カッコをはずしました。カッコの前にマイナスがあったので、+eの部分が-eに変わりましたね。カッコが1つしかないので、小カッコに戻せばいいのですが、ちょっと待ってください。
右側の式の、 x_i - \bar x って、見たことある形ではありませんか?
データから(本来の)平均値を引いていますから、これは「偏差」です。そして、偏差の合計が0になる(平均も0になる)ことをすでに私たちは知っています。つまり、
 \displaystyle \sum_{i=1}^n (x_i - \bar x) = 0
です。ということは、 x_i - \bar x という形を、ひとまとまりにして考えたほうが、式の変形が簡単になるのでは? どこかで「偏差の合計は0だもんね!」という知識が使えるのでは? と考えるのです。ということで、(2)の式を次のように変形してみましょう。
\{x_i - \bar x  - e \}  = \{ (x_i - \bar x)  - e \}
こうしておいて、 (x_i - \bar x) の部分は「ひとまとまり」と考えて展開していきます。ひとまとまりにする、とは、(3)の式が、あたかも \{ (x_i - \bar x)  - e \}  = ( ■ - e )
であるかのように扱うのです。((x_i - \bar x)=■ と置き換えていますから、いずれ元に戻しますけどね。)

中カッコを(小カッコはそのまま)展開する

では、小カッコの中をさわらないようにして、中カッコを展開していきましょう。まとまりにした部分がくずれないように、(x_i - \bar x)=■ と置き換えたまま進めていきましょう。
\displaystyle \begin{aligned} v' &= \frac1n \sum_{i=1}^n ( ■- e)^2 \\
&=\displaystyle \frac1n \sum_{i=1}^n ( ■^2 -2■e + e^2) \end{aligned} \tag{4}
どうでしょう? 分散の定義式を展開したときと、見た目がよく似ていると思いませんか?(#11を思い出してください!)
あとは何をすればいいかというと、

  1. 分身の術でシグマくんを3つに分ける
  2. エヌがくれの術、まとめ掛けの術が使える場所を探して変形する
  3. 「データの合計は平均のn倍」「偏差の合計は0」などが使えないか考える

です。

分身の術

とりあえず、分身の術だけをやってしまいましょう。
\displaystyle \begin{aligned} v' &=\displaystyle \frac1n \sum_{i=1}^n ( ■^2 -2■e + e^2 ) \\
&= \frac1n \sum_{i=1}^n \Big( ■^2 \Big)+\frac1n \sum_{i=1}^n \Big( -2■e \Big)+\frac1n \sum_{i=1}^n \Big(  e^2 \Big) \\
&= \frac1n \sum_{i=1}^n \Big( (x_i-\bar x)^2 \Big)+\frac1n \sum_{i=1}^n \Big( -2(x_i-\bar x)e \Big)+\frac1n \sum_{i=1}^n \Big(  e^2 \Big) \end{aligned} \tag{5}
シグマくんの守備範囲を明示するために、大きめのカッコでくくってあります(本来必要のないものです。)また、■を、本来の式である(x_i - \bar x)に戻してあります。分身の術はここまでです。あとは、エヌがくれの術、まとめ掛けの術を1回ずつ、そして、「あれ」を使います。
続きは次回に。