趣味の統計

心理統計のはなし(偏差への偏愛ともいう)。Web上に散らばっている「アンケート」へのつっこみ。その他。

シグマくんのはなし #29

クロス表における「偏差」

今回は、クロス表における「偏差」について考えます。
最初に断っておくと、前回も書いたように、クロス表で「偏差」という言葉はほぼ使われません。が、以下に書くような性質は、データから平均値を引いた値としての「偏差」と近いものであると私は思っているので、以下、「クロス表における「偏差」」というふうに書いていきます。何かほかに、適切な表現がないかなと思っております。

度数から期待度数を引く

通常の偏差は、データ(観測値)から、それらの平均値を引く、という方法で算出されていました。式で書くと、 x_i - \bar x ですね。
クロス表における「偏差」と私が言っているものは、クロス表に書かれている度数から、期待度数を引く、という方法で算出するものです。期待度数は、多くの教科書で  e_{ij} と書かれています。この  e は、Expected (期待値の「期待」の意)ですね。統計学では、誤差も一般に  e (これは error の意)と書かれるので、できれば別の字を使いたいのですが、これもいい案がうかびませんので、  e_{ij} を使っていきます。
クロス表における「偏差」を式で表すと、 x_{ij} - e_{ij} となります。e_{ij} で表される期待度数は、クロス表のすべての度数を使って計算され、「意味のない」状況、言い換えると、「まったく偏りのない状況」を表していると考えれば、平均値とよくにた立ち位置の値です。が、平均値と異なるのは、期待度数はセルごとに異なった値になるということですね。もちろん、表の構造によってたまたま同じ値が現れることはあるのですけど。

クロス表における「偏差」を計算してみる

では、実際に、クロス表における偏差を計算してみましょう。次の表を使います。

  1. 一番左の「x」と書かれている表が度数を表しています。表頭や表側、「計」の部分は省いてあります。度数の合計が表の右下に書かれています。ここでは35です。
  2. 表の大きさは「2行×2列」、自由度は1です。ここでは、黄色く塗ったセルの度数を変えながら、他の表の変化を観察していきます。今は、期待度数より1小さい「8」になっています。
  3. 次の「e」と書かれている表が期待度数を表しています。行の合計、列の合計が「x」の表と一致することを確かめてください。
  4. その右、「d」と書かれている表が、度数から期待度数を引いたもの、つまり、クロス表における「偏差」です。色の濃いセルは、「x」の自由度の位置に対応するセルです。

「合計すると0」があちこちに現われる

さて、ここまでで注目したいのは、次のことです。

  • クロス表における「偏差」を、行ごとに合計すると、どの行も0になる。
  • クロス表における「偏差」を、列ごとに合計すると、どの列も0になる。

最初の「x」の表は、黄色いセルの度数を、「9」から「8」に変えたものでした。度数を1減らしので、クロス表における「偏差」は「-1」になり、それを調整するように、右と下のセルには「1」が、対角線上のセルには「-1」が現れています。かならずこうなるのか? を検証するために、度数を少し変えてみます。

黄色いセルの度数を、「7」に変えたものです。度数をさらに1減らしたぶん、クロス表における「偏差」は「-2」になり、行合計、列合計が0になるように、「2」と「-2」が並んでいます。

同様に、黄色いセルを「6」にすると、「-3」と「3」が並びます。クロス表における「偏差」の行合計、列合計はやはり0です。

ここまでをまとめると

このように、「2行×2列」のクロス表における「偏差」は、
(1) 4つのセルで絶対値が等しくなり、
(2) 対角線にあるセル同士で符号が同じになり、
(3) 隣り合うセル同士で符号が逆になります。つまり、
(4) 1つのセルの「偏差」が決まると、行合計や列合計が0になるように、他のセルの「偏差」も決まってしまいます。

ただし、今は「2行×2列」のクロス表に限定しています。表が大きくなると、だんだん複雑になってきます。
「偏差」は合計すると0になることは、もう何度も話してきましたが、クロス表における「偏差」でも、同様のことが起きていたのですね。

黄色いセルの度数を増やしても同じなのか

ここまでは、黄色いセルの度数を、期待度数より1小さくする、さらに1小さくする、という方法で、表の数値を変えながら、クロス表における「偏差」がどのように変化するかを見てきました。じゃあ、黄色いセルの度数を、期待度数より大きくしていっても同じなのか? と気になるかもしれません。
結果は、同じになります。1つだけ例を示しておきます。

黄色いセルの度数が、期待度数より「2」大きいので、クロス表における「偏差」は「2」になっていて、行合計、列合計はやはり0になっていますね。

偏差を二乗する

さて、分散を計算するときに、偏差を二乗する必要があることを以前に書きました。同じ理由から、クロス表における「偏差」も二乗してすべて正の値にします。これが、「期待度数」と食い違っている度合いを表す指標(を計算するための値)になるわけですね。これまで示してきた画像では、「d^2」(dの2乗という意味です)で表しています。4つのセルですべて同じ値になっていますね。どうしてかというと、クロス表における「偏差」は、(2行2列の表では、)どのセルも絶対値が等しかったからです。
ところで、分散を計算するときには、「偏差」を二乗して合計し、それをn、あるいは自由度で割ったのでした。クロス表における「偏差」の2乗は、このあとどうすればいいのでしょうか?
次回はそれについて考えます。