趣味の統計

心理統計のはなし(偏差への偏愛ともいう)。Web上に散らばっている「アンケート」へのつっこみ。その他。

シグマくんのはなし #30

散らばり具合、あるいは密集度

分散という指標の意味を表すのに、「データの散らばり具合」という言い方がよく使われます。英語表現の variance は一般的に「不一致」とか「変化」とかの意味で、dispersion も「解散」「消散」とかの意味で、どちらも数学では「分散」を表す単語として用いられる単語です。ですから、「散らばり具合」で正しいのです。でも、反対側から見て、「密集度」と表現している教科書があって、なるほど「分散が小さいということはデータが密集していること」という言い方をあわせて用いると、もう少しイメージがしやすいかもしれない、と思っています。

度数と期待度数の差の二乗

前回の記事では、「度数と期待度数の差(=クロス表における「偏差」)の二乗」が、「期待度数」と食い違っている度合いを表す指標(を計算するための値)になると書きました。でも、二乗した値のまま評価してよいのか、という疑問は残っています。なぜなら、分散はnあるいは自由度で割って、標本サイズの大きさに影響されない値になっていたからです。これを考えるために、こんなイラストを使ってみましょう。

イラストで考える「セル内の密集度、散らばり具合」


右に示したのは、前回用いた2行×2列の表の期待度数の部分です。期待度数と同じだけの顔のイラストを、セルの中に入れています。ここで重要なのは、どのセルも、同じような密集度になっていることです。どういうことでしょうか。
期待度数の表では、1行目と2行目の度数の比は「9:12=6:8=3:4」でした。ですから、イラストのセルの縦の長さも、ほぼ「3:4」にしてあります。1列目と2列目の度数の比は「9:6=12:8=3:2」でした。ですから、イラストのセルの横の長さも、ほぼ「3:2」にしてあります。
こんな風に、密集度、あるいは散らばり具合が、どのセルでも等しくなるような度数のことを期待度数という、という理解もいいかもしれませんね。

密集度を変えてみる

では、左上のセルの値を、2小さくしてみましょう。そうすると、他のセルの値がどのように変化するか、もう計算できますね。値の変化(=クロス表における「偏差」)の行の合計や列の合計が0になるように、調整すればよいのでした。

度数(顔のイラストの数)が増えたセルは、ちょっと窮屈な感じになっていますね。そして、左下のセル(期待度数12)と右上のセル(期待度数6)を比べると、同じように2だけ増えていますが、窮屈さの具合が少し違いませんか? 左下は、まだもう1人くらいは大丈夫な感じがしますが、右上は、もういっぱいいっぱいな感じがします。
左下と右上は、どちらもクロス表における「偏差」は2、その2乗は4でした。密集度は4増えているといえそうですが、同じ「4」でも、セル内の密集度に与える影響は異なりますね。これを調整するためには、増えた密集度「4」が、期待度数に対してどれくらいの大きさなのかを計算してやればよいことになります。したがって、

  • 左下のセル: 4 \div 12 = 0.333…密集度が33.3%変化した(増した)。
  • 右上のセル: 4 \div 6 = 0.667…密集度が66.7%変化した(増した)。

なるほど、右上のセルの方が密集度がより増した、つまり、より窮屈な感じになったことが、数値で表されました。

カイ二乗統計量

これまでのことを、前回使っていた表の右端に付け加えてみました。

水色の表(d^2)までは前回も掲載したものですね。オレンジ色の表は、それを期待度数で割った値です。かならず正の値になりますから、これだけ見ても、密集度が高くなったのか低くなったのかは判断できません。が、いずれにしても、期待度数とのずれが大きいほど、この値は大きくなることは分かると思います。表の右下には合計が記されています。この値(1.944)が、クロス表の検定(カイ二乗検定)で使われる、カイ二乗統計量です。

比較のために、左上のセルの度数を「8」にしたときの表も掲げます。先ほどの表と比べて、密集度の変化量が小さくなっていることが分かりますね。カイ二乗統計量は0.486でした。
こうやって計算したカイ二乗統計量を、表の自由度に対応したカイ二乗分布表と比べることで、この表は「意味がない」状況なのか、それとも、「意味がないとはちょっと言いにくいよね」という状況なのかを判断することになります。自由度が1のカイ二乗分布で、右側の5%点は3.841なので、どちらの場合も、「(ちょっと微妙な感じもするけど)意味がなさそう」と判断するのがよさそうですね。