趣味の統計

心理統計のはなし(偏差への偏愛ともいう)。Web上に散らばっている「アンケート」へのつっこみ。その他。

誤差の分散を考える

前回は古典的テスト理論について書きました。この理論では、誤差を、「系統誤差」と「偶然誤差」に分けて考えていました。「偶然誤差」の方は「たくさん集めたら結局打ち消し合って0になるんじゃね?」ということで、合計=0、よって平均=0と考えたのでした。その結果、多くのテスト問題の平均的な得点は、テストを受けた個人の真の得点(真の力)を表していると考えられます。
では、誤差の分散はどうなる? というのが今回の話です。
平均が0なんだから、分散も0でしょ! 決まり!
と考えるのは早合点すぎますね。平均が0になるのは、「プラス方向の誤差とマイナス方向の誤差がきっと打ち消し合うだろう」と考えているからです。一方、分散0になるときというのは、「ぜーんぶ同じ値で、散らばりなんてぜーんぜんないじゃん!」というときです。この違い、理解してもらえますか?
5回分のテストで考えましょう。

  • 誤差が{1,1,1,1,1}(ぜんぶ1!?):誤差の平均は1、分散は0。これは偶然誤差ではなくて系統誤差ですね。いつも1kgだけ大きい値が出る体重計って好きですか? 直した方がいいですよね。
  • 誤差が{0,0,0,0,0}(ぜんぶ0!?):誤差の平均は0、分散は0。誤差がいつも0なのでとても信頼できる測定機器ですね。心理学の概念も(幸福度とか、自己肯定感とか、エトセトラ)こんなふうに測れたら心理学は終わりです。が、ありえないと思いますね。だってこれ、個人差を全否定してますからね(5回分、というのを5人分、に読み替えたらわかりますよね。そういう意味では、最初の例も個人差全否定です。)。
  • 誤差が{-1, 2, 0, -4, 3}(誤差がばらついた!):誤差の平均は0、分散は( (-1)^2+2^2+0^2+(-4)^2+3^2=30, 30 \div 5 = 6)と計算して6です。

これです。この3つ目の例が、テスト理論が想定しているものです。

分散の計算式

分散の計算式は、得点から平均値を引いて(これを偏差といいます)、それを2乗したものを平均します。ちょっと式がごつくなりますが、こんな感じ。
 \displaystyle \V[X = \frac1n \sum_{i=1}^n (X_i - \bar X)^2]
さて、これを展開していきましょう。できるだけ丁寧に進めるので、苦手な人も頑張って! と、その前に、 \sum(シグマ記号=総和の記号)の上下についている、 i=1 nは、以下の式では省略します。とりあえずデータ全部足してね!というのが総和記号の意味です。

カッコの中を展開する

前回書いたように、X=t+eと分けるのがテスト理論の考え方でした。なので、式の中のX\bar Xを、t+eに分けて書き直します。
 \displaystyle  = \frac1n \sum ( (t_i+e_i) - (\bar t - \bar e))^2
後半の(\bar t - \bar e)は、前回の、平均値を求める計算をそのまま使っています。\bar e=0(誤差の平均値は0)であることはわかっているのですが、形を揃えるために残してあります。

同じ文字がくっつくように順番を変える

さっきの式では、teが2つずつ出てきていますが、同じ文字同士がくっついていたほうが考えやすいので、順番を変えていきます。カッコの中だけ書きますよ。
 \displaystyle (t_i+e_i) - (\bar t - \bar e) = t_i + e_i - \bar t - \bar e = t_i-\bar t+e_i-\bar e = (t_i-\bar t) + (e_i-\bar e)